Das Paper „An Unsupervised Machine Learning Approach to Body Text and Table of Contents Extraction from Digital Scientific Articles“ wurde auf der renommierten TPDL 2013 als Best Paper ausgezeichnet!

The paper “An Unsupervised Machine Learning Approach to Body Text and Table of Contents Extraction from Digital Scientific Articles“ was selected as best paper at the renowned TPDL 2013.

Die Konferenz zählt zu den führenden, internationalen Konferenzen zum Thema „Theory and Practice of Digital Libraries“ und hat vom 22.–26. September 2013 in Valletta (Malta) stattgefunden. Die TPDL ist der jährliche Treffpunkt sowohl für Forscher und Entwickler als auch Anbieter, Vertreter und Nutzer von digitalen Bibliotheken.

Im Paper – von Stefan Klampfl und Roman Kern (Knowledge Relationship Discovery) verfasst – wird ein System vorgestellt, das die logische Struktur einer wissenschaftlichen Publikation in Form eines PDF Dokuments auf Basis von maschinellen Lernverfahren und Heuristiken erkennt. Diese logische Struktur besteht aus der Zuordnung von einzelnen Textblöcken in verschiedene Kategorien (Überschriften, Haupttext, Tabellen, etc.) und wird schließlich dazu benutzt, den Fließtext sowie das Inhaltsverzeichnis des Artikels zu extrahieren. Eine solche automatisierte Verarbeitung ist angesichts der wachsenden Menge an wissenschaftlicher Publikationen von besonderer Relevanz.

Nähere Informationen zur Konferenz finden Sie unter: http://www.tpdl2013.info/

The conference counts to the top-tier international conferences in the area of “Theory and Practice of Digital Libraries“ and took place from September 22-26 in Valletta (Malta). The TPDL is the annual meeting point for scientists as well as developers as well as suppliers, representatives and users of digital libraries.

In the paper by Stefan Klampfl and Roman Kern (Knowledge Relationship Dicovery) a system that recognizes the logical structure of a scientific publication in the form of a PDF document is introduced on the basis of machine learning and the recognition of heuristics. This logical structure consists of the relation of single boiler plates in different categories (headlines, main text, figures, etc.) and is finally used to extract the continuous text as well as the table of contents of the article. Considering the fact of a steadily increasing amount of scientific papers this automated processing is of particular importance.

Further information about the conference is available on http://www.tpdl2013.info/