Konzeption eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Texten als Vorbereitungsschritt einer Plagiatserkennung

Kalaf, Carla (2024) Konzeption eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Texten als Vorbereitungsschritt einer Plagiatserkennung. Other thesis, Universität Rostock.

Text
Abschlussbericht_Carla_Kalaf.pdf
Download (1MB)

Abstract

Diese Bachelorarbeit diskutiert den Entwicklungsprozess eines ETL-Prozesses, das darauf abzielt, spezifische Kennzahlen aus Texten zu extrahieren. Die Texte wurden aus PDF-Dateien unter Verwendung der PyPDF2-Bibliothek in der Programmiersprache Python extrahiert. Diese Arbeit bietet eine umfassende Analyse der Arten von Kennzahlen, die extrahiert werden können, mit einem besonderen Schwerpunkt auf der Art und Weise, wie Metadaten extrahiert und als effektive Indikatoren genutzt werden können, auf diese Kennzahlen kann dann später verlassen werden, um Plagiate in akademischen Arbeiten von Studenten zu identifizieren. Die Arbeit hebt auch eine Reihe von in Python verfügbaren Programmbibliotheken hervor, erläutert ihre Eigenschaften und die Vorteile, die sie bieten, und kommt zu dem Schluss, dass in dieser Arbeit die PyPDF2-Bibliothek die bessere Option für die Textextraktion darstellt. Darüber hinaus wird die Rolle der NLTK-Bibliothek bei der effizienten Extraktion von Kennzahlen und Textanalyse diskutiert. Zusätzlich wurden die Ergebnisse der Text- und Kennzahlenextraktion sowie der Metadaten sorgfältig bewertet, um ihre Gültigkeit und Zuverlässigkeit zu überprüfen. Die Arbeit schließt mit einer Reihe von Empfehlungen für zukünftige Forschungen in diesem vielversprechenden Feld.

Item Type:	Thesis (Other)
Subjects:	Autorenart > Studentische Arbeiten > Bachelorarbeit Autorenart > Studentische Arbeiten
Depositing User:	Dbis Admin
Date Deposited:	25 Jun 2024 08:19
Last Modified:	25 Jun 2024 08:19
URI:	https://eprints.dbis.informatik.uni-rostock.de/id/eprint/1117

Actions (login required)

View Item