Techniken für Suchmaschinen zum Auffinden relevanter Informationseinheiten in Web-Datenbanken

Weber, Gunnar (2006) Techniken für Suchmaschinen zum Auffinden relevanter Informationseinheiten in Web-Datenbanken. UNSPECIFIED thesis, Universität Rostock, Fakultät für Ingenieurwissenschaften.

Full text not available from this repository.

Abstract

Web-Datenbanken besitzen im Allgemeinen eine Anfrage-Schnittstelle, die Inhalte auf der Basis von Nutzereingaben in einem Web-Formular liefert. Somit werden immer nur diejenigen Inhalte der Datenbank präsentiert, die für den Nutzer von Interesse sind. Da Suchmaschinen mit dieser Eingabedynamik nicht umgehen können, haben sie keinen Zugriff auf diese Inhalte. Einige Web-Datenbanken bieten neben der Anfrage-Schnittstelle noch eine Navigations-Schnittstelle, die auf einer vorgegebenen Klassifikation der Inhalte und statischen Verweisen basiert. Die Suchmaschinen sind damit in der Lage, die Inhalte dieser Web-Datenbanken zu ermitteln. Die Indexierung über die Navigations-Schnittstelle ist aber nicht effizient genug, um eine zeitnahe Aktualisierung der Indexdaten vorzunehmen. Viele Ergebnisdokumente mit Datenbankinhalten, die von der Suchmaschine als Ergebnis auf eine Nutzeranfrage geliefert werden, beinhalten deshalb veralterte Daten. Aktuell verfügbare Suchmaschinen betrachten Datenbankinhalte auf der Basis von Dokumenten. Sind mehrere Informationseinheiten aus der Datenbank in einem Dokument enthalten, dann führt dies zu fehlerhaften Bewertungen im Vektorraum-Modell bzw. falschen Ergebnissen im Booleschen Modell. Die Suche nach relevanten Informationseinheiten wird von den Suchmaschinen damit nicht adäquat umgesetzt. Dieses Problem tritt hauptsächlich dann auf, wenn die Datenbank-Inhalte vom Anbieter in statische Hypertext- Dokumente exportiert wurden. Das Ziel der Arbeit ist die Konzeption einer Suchmaschine, die das Auffinden relevanter aktueller Informationseinheiten in Web-Datenbanken auf der Basis kompakter Indexdaten erlaubt. Die Suchmaschine soll in Verbindung mit den Web-Datenbanken Information Retrieval-Anfragen beantworten, obwohl die Anfragesprachen, die von den Datenbank- Managementsystemen angeboten werden, nicht in der Lage sind, solche Anfragen direkt zu verarbeiten. In dieser Arbeit werden Konzepte für eine generische Datenbank-Schnittstelle entwickelt, die den Zugriff auf die relevanten Inhalte für die Indexierung und die Weitergabe von Anfragen zum Ermitteln der relevanten Informationseinheiten ermöglicht. Die Indexdaten können dadurch auf die aktiven Domänen ausgewählter Attribute beschränkt und effizient ermittelt werden. Im Hinblick auf die hohe Änderungsfrequenz der Datenbank-Inhalte und den sehr viel größeren Umfang im Vergleich zum öffentlich indexierbaren Web ist dies eine wesentliche Voraussetzung für eine zeitnahe Aktualisierung der Indexdaten. Relevante Informationseinheiten werden auf der Basis des aktuellen Datenbestands einer Web-Datenbank bestimmt. Die Suchmaschine ermittelt mit Hilfe der lokalen Indexdaten zunächst die relevanten Web-Datenbanken, die anschließend vom Nutzer für die Suche nach den relevanten Informationseinheiten ausgewählt werden können. Damit die " besten" Web-Datenbanken zu einer gegebenen Anfrage am Anfang der Ergebnisliste stehen, wird in der Arbeit eine geeignete Bewertung der Datenbanken auf der Basis der partiellen Index-Informationen vorgestellt. In einer Datenbank sind die Informationseinheiten in der Regel über mehrere Tupel in verschiedenen Relationen verteilt. Ein Auffinden dieser Einheiten erfordert somit die Spezifikation von Verbundausdrücken innerhalb der Anfragen. In der Arbeit wird ein geeignetes Datenmodell entwickelt, das die Details der Konstruktion der Informationseinheiten für die Suchmaschine versteckt und damit die einfache Formulierung von Anfragen an die Datenbank erlaubt. Da die auf der Grundlage der Datendefinition beschriebene Semantik einer Datenbank für diese Art der Suche häufig nicht ausreichend ist, ermöglicht das Datenmodell die Spezifikation fehlender semantischer Informationen. Datenbank-Managementsysteme bieten zwar umfangreiche Anfragesprachen, die sich auf die Struktur der Datenbank beziehen, aber keine schlüsselwortbasierte Suche erlauben. Aus diesem Grund sind zusätzliche Datenstrukturen innerhalb der Suchmaschine notwendig, mit deren Hilfe diejenigen Attribute und Attributwerte einer Datenbank bestimmt werden können, in denen ein Schlüsselwort vorkommt. Auf der Basis dieser Datenstruktur werden aus einer schlüsselwortbasierten Anfragen an die Suchmaschine Anfragen an die Web-Datenbank abgeleitet, die aus einer Menge von Attribut-Wert-Paaren bestehen. Die Evaluierung der in der Arbeit entwickelten Techniken zeigt, dass (i) der Umfang der benötigten Index-Daten klein im Verhältnis zum Datenvolumen einer Web-Datenbank und (ii) der Zeitaufwand für die Indexierung der Datenbank sowie die Verarbeitung von Anfragen an die Web-Datenbank auch bei großem Datenumfang gering ist.

Item Type: Thesis (UNSPECIFIED)
Subjects: Autorenart > DBIS-Publikationen
Depositing User: Unnamed user with email doritt.linke@uni-rostock.de
Date Deposited: 24 Mar 2016 09:55
Last Modified: 24 Mar 2016 09:55
URI: http://eprints.dbis.informatik.uni-rostock.de/id/eprint/362

Actions (login required)

View Item View Item