Extraktion textueller Informationen aus heterogenen PDF-Dokumenten

Alkhamis, Mahmoud Ahmad (2023) Extraktion textueller Informationen aus heterogenen PDF-Dokumenten. Other thesis, Universität Rostock.

[img] Text
15.03.23.Mahmoud.Khamis.pdf - Published Version

Download (6MB)

Abstract

Diese Bachelorarbeit untersucht den Prozess der Extraktion von Text aus Absätzen, Überschriften und Tabellen, die in PDF-Dokumenten enthalten sind, mithilfe des Python-Moduls PDFMiner. In dieser Arbeit wird ein Überblick über viele Python-Bibliotheken sowie ein Vergleich ihrer Funktionen und Eigenschaften präsentiert, mit der Schlussfolgerung, dass PDFMiner die überlegene Option für das Ziel der Textextraktion ist. Die Verarbeitungs- und Implementierungsmethode von PDFMiner wird detailliert aufgeschlüsselt und die Ausgabeergebnisse der Textextraktion werden untersucht, bewertet und auf ihre Korrektheit und Verlässlichkeit geprüft. Die Arbeit schließt mit einigen Vorschlägen für weitere Forschungen in diesem Bereich sowie mit einigen möglichen Anwendungen von PDFMiner in anderen Studienbereichen. Generell zeigen die Ergebnisse der Studie, dass die effiziente Extraktion von Text aus PDF-Dateien das Potenzial hat, in einer Vielzahl von Bereichen wie Bildung, Forschung und Datenanalyse eingesetzt zu werden.

Item Type: Thesis (Other)
Subjects: Autorenart > Studentische Arbeiten > Bachelorarbeit
Forschungsthemen > Digitale Bibliotheken
Forschungsthemen > Information Retrieval
Autorenart > Studentische Arbeiten
Depositing User: Dbis Admin
Date Deposited: 18 Apr 2023 08:45
Last Modified: 18 Apr 2023 08:45
URI: https://eprints.dbis.informatik.uni-rostock.de/id/eprint/1096

Actions (login required)

View Item View Item