>> Ressourcen > Theses > Neussl, Dietmar[..]

 

Weiterentwicklung von Werkzeugen zur Wissensauffindung im World-Wide-Web
Ergänzungen des Harvest-Systems im Hinblick auf Fehlertoleranz, Konfigurierbarkeit, Keyword-Relevanz und Ranking

Diplomarbeit
an der
Technischen Universität Graz
vorgelegt von
Dietmar Neussl
Institut für Informationsverarbeitung und Computergestützte neue Medien (IICM),
Technische Universität Graz
A-8010 Graz
September 1998
©  Copyright 1998, Dietmar Neussl

Betreuer: Dipl.-Ing. Christian Gütl
Begutachter: o.Univ.-Prof. Dr. Dr.h.c. Hermann Maurer

 


Kurzfassung

Das Internet stellt heute, wenige Jahre nach Einführung des World Wide Web, die weltweit größte Wissens- und Informationsdatenbank dar. Das Auffinden von relevanter, seriöser und qualitativ adäquater Information wird aufgrund seiner Unstrukturiertheit, seiner Dynamik und nicht zuletzt seiner Anonymität erheblich erschwert. Aufgabe der Suchdienste ist es, die derzeit schätzungsweise 300 Millionen Web-Seiten zu durchkämmen und dem Suchenden Verweise zu den gewünschten Themen bereitzustellen.

In der vorliegenden Arbeit wird, nach einer einführenden Begriffsbestimmung und Einteilung gebräuchlicher Suchdienste, das Harvest-System als ein Vertreter des Konzepts der verteilten Suche beschrieben. Untersucht werden die HTML-Konvertierung und der Schuchindex. Dabei liegt das Hauptaugenmerk auf den Bereichen der automatischen Generierung von Schlüsselwörtern, der Keyword-Relevanz-Filterung sowie der Gewichtung von Suchresultaten. Die Ergebnisse dieser Untersuchung führen in weiterer Folge zu Modifikationen der entsprechenden Module des Harvest-Systems. Diese Änderungen werden, ebenso wie die dadurch erzielten Verbesserungen und neu entstandenen Möglichkeiten, detailliert diskutiert und dokumentiert.

Im Ausblick werden schließlich weiterführende Ergänzungen und Einsatzmöglichkeiten des neuen Systems erörtert. Die Verwendung als Hintergrundbibliothek für die WBT-Umgebung von Hyperwave (GENTLE) und als Basis eines Information Reuse Systems wird ebenso angesprochen, wie eine mögliche Agent-Anbindung zur Erreichung von plattformunabhängiger Zusammenarbeit.


 

Abstract

Only a few years after the introduction of the World Wide Web, the internet represents today's largest world wide knowledge- and database. The discovery of relevant, serious and adequate information is complicated enormously by its dynamics, lack of structure and last but not least, anonymity. The purposes of internet search facilities are to gather the approximately 300 million web pages, and to provide with links to specific areas of knowledge for the user.

In this thesis common search methods are explained. The Harvest-System, which represents the concept of distributed search, is described. Following this, the HTML conversion and search indices are investigated in more detail. Special attention is given to the fields of automatic generation of keywords, the relevance of keywords and the ranking of retrieved information. The results of this investigation lead to modifications in corresponding modules in the Harvest system. These changes, the ensuing improvements and new possibilities are documented in detail.

Finally, further extensions and possible applications are discussed. The system maybe use as an background library for Hyperwave's WBT-environment (GENTLE) as well as a basis of an Information Reuse system. The implementation of software agents for platform independent co-operation is also mentioned.


HTML-Version

PDF-Version

Postscript-Version