>> Ressourcen > Theses > Hoffmann, Rober[..]

Entwicklung einer benutzerunterstützten automatisierten Klassifikation von Web - Dokumenten

 

Untersuchung gegenwärtiger Methoden zur automatisierten Dokumentklassifikation und Implementierung eines Prototyps zum verbesserten Information Retrieval für das xFIND System

 

 

Diplomarbeit

 

an der

 

Technischen Universität Graz

 

vorgelegt von

 

Robert Hoffmann

 

Institut für Informationsverarbeitung und Computerunterstützte neue Medien (IICM)

Technische Universität Graz

A-8010 Graz

 

 

Dezember 2002

 

Ó 2002, Robert Hoffmann

Diese Arbeit ist in deutscher Sprache verfasst.

 

 

 

  Begutachter: o.Univ.-Prof. Dr. Dr.h.c.mult. Hermann Maurer

  Betreuer: Dipl.-Ing. Dr. Christian Gütl

 

 

 

Kurzfassung

 

Das unüberschaubare und permanent wachsende Angebot von Informationen im Internet ermöglicht es den Menschen nicht mehr, dieses inhaltlich zu erfassen oder gezielt nach Informationen zu suchen. Einen Lösungsweg zur verbesserten Informationsauffindung stellt hierbei die Kategorisierung bzw. Klassifikation der Informationen auf Basis ihres thematischen Inhaltes dar. Diese thematische Klassifikation kann sowohl anhand manueller (intellektueller) Methoden als auch durch automatisierte Verfahren erfolgen. Doch beide Ansätze für sich konnten die an sie gestellten Erwartungen bis zum heutigen Tag nur unzureichend erfüllen. Im Rahmen dieser Arbeit soll daher der naheliegende Ansatz, die beiden Methoden sinnvoll zu verknüpfen, untersucht werden.

 

Im ersten Teil dieser Arbeit, dem Untersuchungsbereich, wird einleitend das Problem des Informationsüberangebots in unserer Gesellschaft erläutert und gezeigt, dass die Kategorisierung bzw. Klassifikation dieser Informationen speziell im Internet sinnvoll erscheint. Die prinzipiellen Möglichkeiten der Themenzuordnung von Dokumenten zur Verbesserung der Wissensverwaltung und Wissensauffindung werden beschrieben. Dabei werden unter anderem verschiedene Klassifikationsschemata, Topic Maps und semantische Netze vorgestellt. Schwerpunkt des Untersuchungsbereiches ist die Beschreibung automatisierter Methoden zur Themenzuordnung. Neben einem Überblick über die gebräuchlichsten Klassifikations-Algorithmen  werden sowohl am Markt existierende Systeme sowie Forschungsansätze und frei verfügbare Module zur automatischen Klassifikation vorgestellt. Berücksichtigt werden auch Systeme, die zumindest teilweise den erwähnten Ansatz der Kombination von manuellen und automatischen Methoden unterstützen. Auch die in Zusammenhang mit der Klassifikation von Dokumenten im Internet auftretenden Probleme werden aufgezeigt.

 

Die im Untersuchungsbereich gewonnenen Erkenntnisse fließen in die Entwicklung eines Moduls zur benutzerunterstützten, automatischen Dokumentklassifikation im Rahmen des xFIND Systems (extended Framework for Information Discovery) ein. Dieses an der technischen Universität Graz konzipierte Framework stellt die Basis für eine Vielzahl neuer Ideen zur Verbesserung des Information Retrieval dar. Der im Gestaltungsbereich entwickelte Lösungsansatz sieht zunächst die Verwendung bereits im System vorhandener, manuell klassifizierter Dokumente, Server oder Serverbereiche als Grundlage für die automatische Klassifikation vor. Nach erfolgter automatischer Klassifikation können in einem nächsten Schritt dann Autoren und Administratoren die Ergebnisse im Rahmen einer Benutzerunterstützung anpassen. Dabei kann das kollektive Benutzerverhalten durch die Möglichkeit eines Votings -  mittels Zustimmung bzw. Ablehnung der Klassifikationsergebnisse - Einfluss finden. Das Wissen von Fachexperten und Benutzern trägt somit letztendlich zur Verbesserung der automatischen Klassifikation bei. Im Gestaltungsbereich werden die grundlegenden Konzepte, der Aufbau und die Funktionsweise des entwickelten Moduls beschrieben, sowie eine Reihe von Vorschlägen und Ideen zur Weiterentwicklung der benutzerunterstützten automatischen Dokumentklassifikation präsentiert.

 

 

 

Abstract

 

The unmanageable and permanently increasing amount of information found on the Internet prevents users from searching and identifying the adequate information. Classification or categorization of information based on its content seems to be one appropriate solution to support the location of information of interest on the Internet. There exist either manual or automated methods to assist authors and users in thematically classifying information. However, up to now both of these methods have not fulfilled the expectations. This subsequent thesis follows an approach to combine those two methods effectively.

 

The theoretical section of this thesis will show, that classification and categorization of information seems to be inevitable to solve the problem of information overflow, especially on the Internet. Therefore, in order to improve knowledge management some mechanisms like classification schemes, topic maps and semantic networks will be introduced. Main emphasis of this first section will be placed on the description of automated systems for classification based on thematic affiliation. Besides an overview over the mainly used automated algorithms, some well-known and currently used systems will also be explained. Additionally, research projects and freely available modules, which partly support the idea of combining automated and manual classification, will be described. Finally, the problems that can occur concerning classification will be discussed.

 

Results of the research in the theoretical section of this thesis will be used in the practical part to develop a module for human supported automatic classification of documents. An already existing system for information retrieval, named xFIND (extended Framework for Information Discovery), will be introduced for further implementations. In the proposed solution, already existing manually classified documents or servers on the xFIND system will act as a basis for further automatic classification. The results of this automated classification may be reviewed and adjusted by experts and users. Thus, their general knowledge may enhance the automated system by using some kind of voting mechanism for the classification results. The basic concepts and the functionality of the developed module will be described and some ideas for further improvements of the human supported automatic classification will be presented.

 

 


 

Diplomarbeit HTML (komplett)

 

Diplomarbeit HTML (gegliedert)

 

Diplomarbeit PDF