Das Paper „An Unsupervised Machine Learning Approach to Body Text and Table of Contents Extraction from Digital Scientific Articles“ wurde auf der renommierten TPDL 2013 akzeptiert. This article is only available in German.
Die Konferenz zählt zu den führenden, internationalen Konferenzen zum Thema „Theory and Practice of Digital Libraries“ und wird vom 22.–26. September 2013 in Valletta (Malta) stattfinden. Die TPDL ist der jährliche Treffpunkt sowohl für Forscher und Entwickler als auch Anbieter, Vertreter und Nutzer von digitalen Bibliotheken.
Im Paper – von Dr. Roman Kern und DI Stefan Klampfl (Knowledge Relationship Discovery) verfasst – wird ein System vorgestellt, das die logische Struktur einer wissenschaftlichen Publikation in Form eines PDF Dokuments auf Basis von maschinellen Lernfervahren und Heuristiken erkennt. Diese logische Struktur besteht aus der Zuordnung von einzelnen Textblöcken in verschiedene Kategorien (Überschriften, Haupttext, Tabellen, etc.) und wird schließlich dazu benutzt, den Fließtext sowie das Inhaltsverzeichnis des Artikels zu extrahieren. Eine solche automatisierte Verarbeitung ist angesichts der wachsenden Menge an wissenschaftlicher Publikationen von besonderer Relevanz.
Nähere Informationen zur Konferenz finden Sie unter: http://www.tpdl2013.info/
Sie müssen den Inhalt von reCAPTCHA laden, um das Formular abzuschicken. Bitte beachten Sie, dass dabei Daten mit Drittanbietern ausgetauscht werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Turnstile. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Vimeo. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie müssen den Inhalt von reCAPTCHA laden, um das Formular abzuschicken. Bitte beachten Sie, dass dabei Daten mit Drittanbietern ausgetauscht werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Facebook. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Instagram. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von X. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr Informationen