>> Ressourcen > Theses > Lackner, Wilfri[..]

Verteilte Informationsstrukturen zur modernen Wissensauffindung im Internet

Untersuchungen und Testimplementierung von standardisierten Übertragungsmechanismen am xFIND System

Diplomarbeit an der Technischen Universität Graz, vorgelegt von

Wilfried Lackner

Institut für Informationssysteme und Computer Medien (IICM)

Technische Universität Graz

A-8010 Graz, Österreich

Dezember 2004


© Copyright 2004, Wilfried Lackner

Diese Arbeit ist in deutscher Sprache verfasst.


Begutachter: o.Univ.-Prof. Dr. Dr.h.c.mult. Hermann Maurer

Betreuer: Dipl.-Ing. Dr.tech. Christian Gütl

Distributed Informationstructure of Modern Information Retrieval Systems

Analysis and Testimplementation of standardised Datatransfermechanism for the xFIND System

Master’s Thesis at Graz University of Technology, submitted by

Wilfried Lackner

Institut for Information System and Computer Media (IICM)

Graz University of Technology

A-8010 Graz, Austria

December 2004


© Copyright 2004, Wilfried Lackner

This Thesis is written in german language.


Advisor: o.Univ.-Prof. Dr. Dr.h.c.mult. Hermann Maurer

Supervisor: Dipl.-Ing. Dr.tech. Christian Gütl


Kurzfassung

Wissensauffindung im Internet kann grundsätzlich über verschiedene Möglichkeiten realisiert werden. Der Zugriff auf das verteilte Wissen erfolgt jedoch meist unstrukturiert unter Nutzung verschiedener Suchfunktionen. Im WWW erfolgt die Suche nach Information mit Hilfe von Suchmaschinen. Aufgrund des stetig steigenden Datenvolumens können herkömmliche Suchmaschinen oft keine brauchbaren Antworten mehr liefern. Ein großer Anteil des Wissens steckt zudem im nicht indizierten DeepWeb. Information in verschiedenen Formaten, Medien oder Sprachversionen erschweren zudem die Suche. Um nun gezielt nach Informationen suchen zu können, bedarf es deshalb zusätzlicher Aufwände. Das Anreichern der Information mit Metadaten erleichtert z.B. eine spezifische Datensuche. Das xFIND System versucht insbesondere in diesem Bereich der Informationsauffindung mögliche Problembereiche zu verbessern. xFIND ist eine verteilte Sucharchitektur mit der vordefinierte Quellen, themenspezifisch durchsucht werden können. Die xFIND Kommunikations-schnittstellen sind nicht standardisiert und besitzen kein modernes Sicherheitskonzept. Ziel dieser Arbeit ist es, Vorschläge zur Verbesserung der xFIND Kommunikationsschicht im Bereich der Datenübertragung, Modulanbindung und Verwaltung mit Hilfe standardisierter Protokolle und Methoden zu erstellen.

Im Untersuchungsteil dieser Arbeit werden Problembereiche verteilter Informations-strukturen und verteilter Anwendungen dargestellt. Vor- und Nachteile verschiedener verteilter Topologien liefern zusätzliche Informationen für eine eingehende Analyse verteilter Architekturen. Neue Ideen und konzeptionelle Ansätze können aus Architekturformen wie z.B. offenen und dezentralen Peer-to-Peer Netzwerken, die sich verstärkt im Internet verbreiten, gewonnen werden. Viele bestehende Lösungen aus dem Bereich der Middleware Applikationen setzen vorwiegend standardisierte Schnittstellen ein. Eine Analyse diverser standardisierter Dienste und Transportprotokolle für verteilte Suchsysteme bildet die Basis für weitere Untersuchungen an der xFIND Übertragungsschicht.

Um Vorschläge zur Verbesserung der xFIND Kommunikationsschnittstellen erstellen zu können, wird im Gestaltungsteil eine eingehende Analyse der xFIND Systemarchitektur durchgeführt. Zu Testzwecken wird das Übertragungsverhalten einer xFIND Client-Server Kommunikation unter Nutzung einer Testimplementierung simuliert. Mit diesem Simulationsaufbau werden Benchmarkwerte erstellt, um vergleichbare Analyseergebnisse mit anderen Technologien zu gewinnen. In weitere Folge werden zwei Technologien näher untersucht und Prototypen für eine verbesserte Kommunikationsarchitektur für das xFIND System implementiert. So findet BEEP im Bereich der Datenübertragung und das JXTA Protokollframework für den Bereich der automatisierten Verwaltung im Gestaltungsbereich seine Anwendung. Mit Hilfe dieser Prototypen werden spezifische Kennwerte der jeweiligen Technologien erstellt und mit den Ergebnissen von xFIND verglichen. Den Abschluss des Gestaltungsteiles bildet eine Übersicht an möglichen Vorschlägen und neuen Ideen zur Verbesserung bzw. Erweiterung des xFIND Systems.

Abstract

Information retrieval in the Internet can in principle be realized in miscellaneous ways. However, access to distributed knowledge often occurs in unstructured fashion through the use of different search methods. In case of the WWW, the search for information is carried out by means of search engines. Because of the constantly rising quantity of data, conventional search engines often provide no useful answers. Furthermore, a large portion of knowledge resides in the un-indexed DeepWeb. Information storage in different formats, media or language versions additionally complicate the retrieval process. In order to be able to look for purposeful information additional methods are required. For example, providing information with metadata facilitates a specific data search. The xFIND system introduced in this work tries to present some solutions as to how these problems of information retrieval could be prevented. xFIND is a distributed search architecture which enables a topic-specifical search in pre-defined resources. The xFIND communication interfaces are not standardized and have no modern security concept. The goal of this thesis is to find some suggestions for the improvement of the xFIND communication layer in the range of the data communication, the module binding and the module administration with the help of standardized protocols and methods.

The theoretical section of this thesis tries to present problem areas of distributed information structures and distributed applications. Pro and cons of different distributed topologies give additional information for a detailed analysis of distributed architectures. New ideas and conceptional approaches can be extracted from new architecture forms such as open and decentralized peer-to-peer networks which increasingly spread in the Internet. Many existing solutions from the area of middleware applications use predominantly standardized interfaces. An analysis of various standardized services and transport protocols for distributed searching systems forms the base for further investigations at the xFIND communication layer.

In order to be able to provide suggestions concerning the improvement of the xFIND communication interfaces, a detailed analysis of the xFIND architecture is accomplished in the practical section of this thesis. In order to get comparable results of the xFIND transient characteristic a simulation test of the xFIND Client Server communication has been implemented. With this test simulation, benchmark values are provided for future analysis. Furthermore, two technologies are closely investigated and implemented as prototypes to achieve improvements for the xFIND communication architecture. In this way, BEEP will be tested in the practical section in the area of data communication and the JXTA protocol framework in the range of automated administration. With the help of special test implementations, the characteristic values of the respective technologies are provided and compared with the results of the xFIND system. The conclusion of the practical section is an overview of possible suggestions and new ideas for the improvement and extension of the xFIND search system.


Disclimber

Ich versichere hiermit, diese Arbeit selbständig verfasst, andere als die angegebenen Quellen und Hilfsmittel nicht benutzt und mich auch sonst keiner unerlaubten Hilfs-mittel bedient zu haben.

I herby certify that the work presented in this thesis is on my own and the work performed by others is appropriately cited.


Danksagung

Mein Dank gilt den Mitarbeitern des IICM um Herrn Prof. Dr. Dr. hc. mult. Hermann Maurer für die Unterstützung in administrativen Angelegenheiten, sowie meinen Kollegen in der Web Application Group (WAG) die mich stets ermutigt haben und von deren Wissen ich sehr viel profitieren konnte.

Insbesondere danken möchte ich meinem Diplomarbeits Betreuer, Herrn Dipl.-Ing. Dr.tech. Christian Gütl, der mich durch zahlreiche Anregungen, Ratschläge und viel Geduld bei der Erstellung dieser Arbeit unterstützt hat.

Der größte Dank gilt meiner Frau Anita, die mich auch in schwierigen Zeiten immer motiviert hat und mir vor allem beim Korrekturlesen eine große Hilfe war.

Schon ein Sprichwort sagt:

"Ein Mann muss in seinem Leben einen Sohn (Clemens & Paul) zeugen, ein Haus bauen, einen Baum pflanzen und ein Buch schreiben."

Ich habe diese Reihenfolge strikt eingehalten, was sich naturgemäß auf die Erstellungsdauer der vorliegenden Arbeit niedergeschlagen hat. Die Bedeutung hinter diesem Sprichwort sagt aber doch viel mehr aus.

"Gib das Leben, das du ohne dein Zutun empfangen hast weiter und sorge zusätzlich dafür, dass dein Kind ein Dach über dem Kopf hat. Arbeite nicht nur für dich und deine Familie, sondern tue etwas für die Zukunft der Allgemeinheit. Du weißt zwar nicht, wer in 200 Jahren unter deinem Baum sitzen wird, aber mit dem Pflanzen des Baumes tust du etwas für deine Nachwelt. Behalte deine Gedanken nicht für dich, sondern schreibe sie auf. Du weißt zwar nicht, wer dein Buch einmal lesen wird, aber du hast etwas hinterlassen, was ein Baustein im Denken eines anderen Menschen sein könnte." von Armin Assmann aus dem Buch „der Erntewagen“

Danke Annemarie und Ferdinand, dass ich all die eben erwähnten Dinge ohne größere Probleme vollbringen konnte.