k-Means-Clustering von Textdokumenten mit teilweise fixierten Clustermittelpunkten

Akrin, Abdullatif (2023) k-Means-Clustering von Textdokumenten mit teilweise fixierten Clustermittelpunkten. Other thesis, Universität Rostock.

[img] Text
Bachelorarbeit_final .pdf

Download (5MB)

Abstract

von Techniken aus den Bereichen maschinelles Lernen und natürliche Sprachverarbeitung (Natural Language Processing, NLP) präsentiert. Die Arbeitsschritte der Textanalyse, von der Vorverarbeitung bis zur Merkmalsextraktion, wurden mit Schwerpunkt auf dem Einsatz des FCK-Means Clustering-Algorithmus detailliert beschrieben. Dieser Algorithmus ermöglicht die Gruppierung ähnlicher Textdokumente auf Basis hochdimensionaler,semantischer Darstellungen, die durch den Einsatz von TF-IDF und BERT-Einbettungen gewonnen werden. In der vorliegenden Arbeit wurde ein System entwickelt und implementiert, das auf Python und mehreren maschinellen Lern- und NLP-Bibliotheken, einschließlich Scikit-Learn, NLTK und Transformers, basiert. Der entwickelte Ansatz wurde auf verschiedenen Anwendungsfällen getestet. Weiterhin wurden praktische Herausforderungen, die bei der Implementierung des Systems auftraten, wie das Management großer Datenmengen und die Sicherstellung der Qualität der Eingabedaten, gründlich diskutiert und Lösungsansätze vorgeschlagen. Zusammenfassend bietet die Arbeit einen tiefgreifenden Einblick in die Methodik und Implementierung eines auf NLP und Clustering basierenden Textklassifikationssystems und unterstreicht dessen Potential in diversen Anwendungsgebieten.

Item Type: Thesis (Other)
Subjects: Autorenart > Studentische Arbeiten > Bachelorarbeit
Forschungsthemen > Information Retrieval
Autorenart > Studentische Arbeiten
Depositing User: Dbis Admin
Date Deposited: 12 Feb 2024 15:27
Last Modified: 12 Feb 2024 15:27
URI: https://eprints.dbis.informatik.uni-rostock.de/id/eprint/1102

Actions (login required)

View Item View Item