INHALT: PROJEKTTITEL:

Föderierungsdienste für heterogene Dokumentenquellen

KONTAKT:

Dipl.-Inf. Eike Schallehn
Dipl.-Inf. Martin Endig
Institut für Technische und Betriebliche Informationsysteme
Otto-von-Guericke-Universität Magdeburg
Universitätsplatz 2
39106 Magdeburg

Telefon:  ++49 391 67 12769
FAX: ++49 391 67 12020
EMail: {eike | endig}@iti.cs.uni-magdeburg.de
WWW: wwwiti.cs.uni-magdeburg.de/iti_db/forschung/globalinfo/


ALLGEMEINES:

Projektleiter: Prof. Dr. rer. nat. habil. Gunter Saake
Laufzeit: 2 Jahre


MITARBEITER:

Dipl.-Inf. Eike Schallehn
Dipl.-Inf. Martin Endig


VERÖFFENTLICHUNGEN:

  • E. Schallehn, M. Endig:
    "Using Source Capability Descriptions for the Integration of Digital Libraries".
    In H.-J. Klein (Hrsg.): Tagungsband 12. GI-Workshop "Grundlagen von Datenbanken", Bericht Nr. 2005 des Institut für Informatik und Praktische Mathematik, Christian-Albrechts-Universität Kiel, Seiten 86-90, Juni 2000


  • E. Schallehn and M. Endig and K. Sattler:
    "Citation Linking in Federated Digital Libraries".
    In M. Roantree, W. Hasselbring, S. Conrad (editor): Engineering Federated Information Systems -- Proceedings of the 3rd Workshop EFIS 2000, Seiten 53-60, Dublin, Ireland, June, Infix, 2000


  • E. Schallehn, M. Endig, K.-U. Sattler (2000):
    " Integrating Bibliographical Data from Heterogeneous Digital Libraries".
    In: Y. Masunaga, J. Pokorný, J. Stuller, B. Thalheim (Editors): Proceedings of Chalenges, 2000 ADBIS-DASFAA Symposium on Advances in Databases and Information Systems, Enlarged Fourth East-European Conference on Advances in Databases and Information Systems, Prague, Czech Republic, Seiten 161-171 Matfyz Press, Vydavatelstvi, Matematicko-Fyzikalni Fakulty, Unverzity Karlovy, September, 2000


  • E. Schallehn, M. Endig (2000):
    " Integration von Internetdatenbanken mit eingeschränkten Anfragemöglichkeiten".
    In: G. Saake, K.-U. Sattler (Editors): Tagungsband zum GI-Workshop "Internet-Datenbanken", Preprint Nr. 12, Fakultät für Informatik, Otto-von-Guericke-Universität Magdeburg, Seiten 87-93, Berlin, September 2000


  • M. Endig, M. Höding, G. Saake, K.-U. Sattler, E. Schallehn:
    "Federation Services for Heterogeneous Digital Libraries Accessing Cooperative and Non-cooperative Sources ".
    To appear in: 2000 Kyoto International Conference on Digital Libraries: Research and Practice, November 13th -16th, 2000, Kyoto University, Kyoto Japan

PROJEKTBESCHREIBUNG:

Ziel dieses Teilprojektes ist der Entwurf und die Implementierung eines Föderierungsdienstes zur Literatur- und Informationsrecherche in heterogenen Informationssystemen. Eine derartige Komponente ist notwendig, da im Anwendungsszenario von Global-Info heterogene und autonome Informationssysteme zusammengefaßt werden müssen, die in der Regel verteilt im Netz agieren und deren lokale Eigenschaften nicht beeinflußbar sind. Der Föderierungsdienst schließt dabei auch die Verwaltung von Metadaten der Föderation in einer Datenbank mit ein. Wesentliche Teilprobleme sind weiterhin Methoden zur Extraktion von Metadaten aus teilweise strukturierten Dokumenten und zur Erkennung identischer Informationsobjekte (Dokumente, Autoreninformationen, etc.), wobei das letztgenannte Teilproblem im folgenden auch als "Erkennung von same-Objekten"

Im Projekt Global-Info werden fachspezifische Dokumenttypen, etwa spezifische Dokumenttypen in der Chemie,  verwendet. Wissenschaftliche Arbeitsziele sind die Validierung und die Anpassung von bekannten Verfahren zum Entwurf föderierter Datenbanken  an die Besonderheiten des Projektes Global-Info. Zentrale Fragestellungen betreffen die Untersuchung und Implementierung von Diensten zur Homogenisierung und Datenfusion. Auf diese Weise kann z.B. der semi-automatische und schrittweise Aufbau eines Netzwerkes Autoren-Dokumente-Verlage-Reihen (ADVR-Netwerk) erfolgen. Ein derartiges Netzwerk ist  für den Wissenschaftsbereich Datenbanken und Logic Programming bereits in Form des DB&LP-Server Trier verfügbar. Keiner der bestehenden Ansätze unterstützt derzeit eine Identifikation von identischen Autoren oder Institutionen in verschiedenen Dokumenten, die oft in unterschiedlichen Formaten oder mitunter unvollständig bzw. fehlerhaft gespeichert sind.

Vielversprechend ist weiterhin die Nutzung von Methoden zur Extraktion von Metadaten aus teilweise strukturierten Dokumenten und zur Homogenisierung. Zusätzlich ist eine Erweiterung dieser Verfahren zur Unterstützung von Retrieval-Funktionalität nötig, bei der Metadaten und Daten zum Teil kombiniert behandelt werden. Neben den üblichen Dokumenttypen sollten auch sehr große Dokumente bzw. Dokumente mit komplexen Strukturen einbezogen werden. Derartige Dokumente finden sich z.B. in großer Vielfalt in der Bioinformatik, speziell auf dem Gebiet der molekularen Diagnostik.

Ein weiterer Schritt zur homogenen Präsentation ist die sinnvolle Zusammenfassung von Informationen aus verschiedenen Dokumentquellen, die jeweils gleiche Realweltausschnitte beschreiben. Das bedeutet, daß die im allgemeinen vorhandene Redundanz möglichst automatisch erkannt und behandelt werden muß. Die Lösung dieser Problemstellung  stellt ein weiteres Arbeitsziel dar.

Die wissenschaftlichen Arbeitsergebnisse sollen in Form von Föderierungskomponenten umgesetzt werden, die teilweise automatisch durch Entwurfswerkzeuge generiert werden. Dazu gehören Dienste zur Verwaltung von same-Objekten und zur Adapter-Generierung Dokumentformatbeschreibungen. Mit Hilfe dieser Komponenten werden vorhandene heterogene Informationssysteme zu einem föderierten System logisch integriert, das die heterogenen Informationen einheitlich präsentiert, wobei die Autonomie der Komponentensysteme, und damit ihre Selbständigkeit erhalten bleibt.

Die Arbeiten lassen sich dabei in zwei Arbeitspakete aufteilen, die in enger Kooperation zueinander bearbeitet werden müssen. Gegenstand von Arbeitspaket A ist dabei primär die Überführung der Quellinformationen der einzelnen Informationssysteme in eine einheitliche Darstellung. Hingegen steht im Arbeitspaket B die Integration bzw. Verschmelzung dieser Informationen zu einer homogenen Zugriffsschnittstelle im Vordergrund.


LINKS:


PROJEKTARBEIT:

  • Arbeitsgruppentreffen am 23. 11. 99 in Berlin (Vortrag)
  • Arbeitsgruppentreffen am 06. Dezember 1999 in Hamburg (Vortrag)
<Webmaster> - webmaster@iti.cs.uni-magdeburg.de
Last modified: Mon Mar 5 13:07:29 CET 2001