INHALT: |
PROJEKTTITEL:
Föderierungsdienste für heterogene Dokumentenquellen KONTAKT: Dipl.-Inf. Eike Schallehn Dipl.-Inf. Martin Endig Institut für Technische und Betriebliche Informationsysteme Otto-von-Guericke-Universität Magdeburg Universitätsplatz 2 39106 Magdeburg
ALLGEMEINES:
MITARBEITER: Dipl.-Inf. Eike Schallehn Dipl.-Inf. Martin Endig VERÖFFENTLICHUNGEN:
PROJEKTBESCHREIBUNG: Ziel dieses Teilprojektes ist der Entwurf und die Implementierung eines Föderierungsdienstes zur Literatur- und Informationsrecherche in heterogenen Informationssystemen. Eine derartige Komponente ist notwendig, da im Anwendungsszenario von Global-Info heterogene und autonome Informationssysteme zusammengefaßt werden müssen, die in der Regel verteilt im Netz agieren und deren lokale Eigenschaften nicht beeinflußbar sind. Der Föderierungsdienst schließt dabei auch die Verwaltung von Metadaten der Föderation in einer Datenbank mit ein. Wesentliche Teilprobleme sind weiterhin Methoden zur Extraktion von Metadaten aus teilweise strukturierten Dokumenten und zur Erkennung identischer Informationsobjekte (Dokumente, Autoreninformationen, etc.), wobei das letztgenannte Teilproblem im folgenden auch als "Erkennung von same-Objekten" Im Projekt Global-Info werden fachspezifische Dokumenttypen, etwa spezifische Dokumenttypen in der Chemie, verwendet. Wissenschaftliche Arbeitsziele sind die Validierung und die Anpassung von bekannten Verfahren zum Entwurf föderierter Datenbanken an die Besonderheiten des Projektes Global-Info. Zentrale Fragestellungen betreffen die Untersuchung und Implementierung von Diensten zur Homogenisierung und Datenfusion. Auf diese Weise kann z.B. der semi-automatische und schrittweise Aufbau eines Netzwerkes Autoren-Dokumente-Verlage-Reihen (ADVR-Netwerk) erfolgen. Ein derartiges Netzwerk ist für den Wissenschaftsbereich Datenbanken und Logic Programming bereits in Form des DB&LP-Server Trier verfügbar. Keiner der bestehenden Ansätze unterstützt derzeit eine Identifikation von identischen Autoren oder Institutionen in verschiedenen Dokumenten, die oft in unterschiedlichen Formaten oder mitunter unvollständig bzw. fehlerhaft gespeichert sind. Vielversprechend ist weiterhin die Nutzung von Methoden zur Extraktion von Metadaten aus teilweise strukturierten Dokumenten und zur Homogenisierung. Zusätzlich ist eine Erweiterung dieser Verfahren zur Unterstützung von Retrieval-Funktionalität nötig, bei der Metadaten und Daten zum Teil kombiniert behandelt werden. Neben den üblichen Dokumenttypen sollten auch sehr große Dokumente bzw. Dokumente mit komplexen Strukturen einbezogen werden. Derartige Dokumente finden sich z.B. in großer Vielfalt in der Bioinformatik, speziell auf dem Gebiet der molekularen Diagnostik. Ein weiterer Schritt zur homogenen Präsentation ist die sinnvolle Zusammenfassung von Informationen aus verschiedenen Dokumentquellen, die jeweils gleiche Realweltausschnitte beschreiben. Das bedeutet, daß die im allgemeinen vorhandene Redundanz möglichst automatisch erkannt und behandelt werden muß. Die Lösung dieser Problemstellung stellt ein weiteres Arbeitsziel dar. Die wissenschaftlichen Arbeitsergebnisse sollen in Form von Föderierungskomponenten umgesetzt werden, die teilweise automatisch durch Entwurfswerkzeuge generiert werden. Dazu gehören Dienste zur Verwaltung von same-Objekten und zur Adapter-Generierung Dokumentformatbeschreibungen. Mit Hilfe dieser Komponenten werden vorhandene heterogene Informationssysteme zu einem föderierten System logisch integriert, das die heterogenen Informationen einheitlich präsentiert, wobei die Autonomie der Komponentensysteme, und damit ihre Selbständigkeit erhalten bleibt. Die Arbeiten lassen sich dabei in zwei Arbeitspakete aufteilen, die in enger Kooperation zueinander bearbeitet werden müssen. Gegenstand von Arbeitspaket A ist dabei primär die Überführung der Quellinformationen der einzelnen Informationssysteme in eine einheitliche Darstellung. Hingegen steht im Arbeitspaket B die Integration bzw. Verschmelzung dieser Informationen zu einer homogenen Zugriffsschnittstelle im Vordergrund. LINKS:
PROJEKTARBEIT: |
<Webmaster> - webmaster@iti.cs.uni-magdeburg.de |
Last modified: Mon Mar 5 13:07:29 CET 2001 |