Wer viel und intensiv mit PDF Dokumenten arbeitet, hat sich mit Sicherheit schon einmal folgende Frage gestellt: Wie bekomme ich die enthaltenen Informationen möglichst einfach aus dem Dokument, um danach sinnvoll mit den Daten weiterzuarbeiten?

Was bisher kaum bis gar nicht möglich war, ist nun dank dem PDF Extractor, der am Know-Center im Rahmen des EU-Projekts CODE entwickelt wurde, Realität. Das Tool erlaubt es strukturelle Daten wie Tabellen, Überschriften oder grafische Elemente aus PDFs zu extrahieren und diese für weitere Analysen oder Visualisierungen bereitzustellen. Zusätzlich werden PDFs automatisch hierarchisch aufgegliedert, um die Arbeit mit den Inhalten des Dokuments zu erleichtern. Weiters können die aus PDFs extrahierten und strukturierten Daten auch in die LOD-Cloud gespeichert werden um dann als abrufbare Information verfügbar zu sein.

Der PDF Extractor kann als Tool auf unterschiedlichste Branchen und Einsatzgebiete angepasst werden. Auf Basis der semantischen Gegebenheiten der jeweiligen Anforderungen lernt das System halbautomatisiert mit den inhaltlichen Besonderheiten der PDFs umzugehen.

Bestes Beispiel dafür ist Mendeley London. Dort ist der PDF Extractor bereit erfolgreich im Einsatz: http://blog.mendeley.com/progress-update/desktop-contents-tables-and-figures/

Der PDF Extractor macht aus simplen PDFs wertvolle Datenquellen:

Demo: Code PDF Extractor