Praktikum Dokumentenbeschreibungssprachen WT 2005
PD Dr. Lothar Schmitz
Ziel dieses Praktikums ist es, die Techniken und Werkzeuge, die derzeit für das künftige Semantic Web entwickelt werden, zu verstehen, zu erlernen und auf dieser Grundlage in Gruppenarbeit ein eigenes, relativ kleines Projekt zu bearbeiten. Was Sie dabei im Einzelnen für Ihren Schein leisten müssen, den Zeitplan, die behandelten Themen sowie Einstiegspunkte für Ihre eigene Materialsuche finden Sie auf dieser Seite. Die Seite wird während des Praktikums weiter ergänzt. Insbesondere sollen hier auch Ihre Arbeitsergebnisse erscheinen. |
Inhalt
- Scheinerwerb
- Ort und Zeit
- Die Vision des Semantic Web
- XML-Hintergrund
- Techniken, Sprachen, Anwendungen
- Eigenes Projekt
- Weitere Quellen und Einstiegspunkte
Scheinerwerb
Das Praktikum ist in drei Phasen gegliedert: In der Vorbereitungsphase setzen Sie sich mit der Vision des Semantic Web auseinander und erhalten einen Überblick über die später benötigten Grundlagen aus dem Bereich XML. Darauf folgt die Einarbeitungsphase, in der Sie sich mit Ontologien sowie Sprachen und Werkzeugen zu ihrer Erstellung vertraut machen werden. In der Projektphase bearbeiten Sie schließlich ein eigenes Projekt.
Während der drei Phasen arbeiten Sie in wechselnden Gruppierungen zusammen, damit sich das erworbene Know-How gleichmäßig verteilt. Die Einteilung für die Vorbereitungs- und die Projektphase nimmt der Praktikumsleiter vor, die für die Einarbeitungsphase Sie selbst.
Zum Scheinerwerb sind neben der aktiven Teilnahme (Fragen, Diskussion) an allen fünf Praktikumsterminen die folgenden schriftlichen und mündlichen Beiträge zu den drei Phasen erforderlich.
-
Vorbereitungsphase: Diese Phase beginnt mit einer Hausaufgabe. Das Thema und die Teilnehmer, mit denen Sie zusammen arbeiten sollen, werden Ihnen per email mitgeteilt. In allen Fällen sollen Sie einen der unter Die Vision des Semantic Web aufgeführten Beiträge gründlich lesen und als Gruppe schriftlich auf deutsch (mit den in der email geforderten Erläuterungen bzw. Überlegungen) wiedergeben. Der Beitrag jedes Bearbeiters (innerhalb der von der Gruppe gemeinsam eingereichten Ausarbeitung) soll zwei Seiten betragen.
Beim ersten Praktikumstermin werden Ihnen vom Praktikumsleiter die Grundlagen der XML-Technologie vorgestellt, die für das Praktikum vorausgesetzt werden. Im Abschnitt XML-Hintergrund finden Sie neben den Vortragsfolien Links auf XML-Einführungen und Tutorien, die zur Vertiefung empfohlen werden. Ein eigener Beitrag hierzu wird nicht verlangt, aber ggfs. selbständige Nacharbeit, wenn Sie später detailliertere Kenntnisse benötigen. -
Einarbeitungsphase: In dieser Phase geht es darum, die verschiedenen Sprachen und Werkzeuge, die zur Implementierung von SemanticWeb-Anwendungen eingesetzt werden, nebst dem notwendigen theoretischen Hintergrund zu verstehen. Sie arbeiten hier in Gruppen von 2-3 Personen zusammen, wobei der einzelne Teilnehmer im Praktikum ein Teilthema vorträgt, aber Erfahrungen aus dem gesamten Themenkomplex in die nächste Phase mitbringt. Details unter Techniken, Sprachen, Anwendungen.
Die Phase umfasst zwei Praktikumstermine; jeder Teilnehmer trägt in dieser Phase einmal vor. Die Gruppe gestaltet gemeinsam Vortragsserien (i.d.R drei Vorträge), in denen einzelne Vorträge 20 Minuten dauern, 10-12 Folien und eine schriftliche Ausarbeitung von 8-10 Seiten umfassen. Je Vortragsserie sollten 5-10 Minuten Demozeit hinzukommen (Beispiel, Ontologie, Werkzeug, Applikation o.ä.). Einreichungseinheit sind die Materialien zu einer Vortragsserie (als gemeinsames zip-Archiv). -
Projektphase: In neu zusammengestellten Gruppen soll jeweils Know-how aus den verschiedenen Gruppen der vorigen Phase zusammengebracht werden und zur Bearbeitung eines kleinen Projekts verwendet werden. Details unter Eigenes Projekt
Diese Phase umfasst die beiden letzten Praktikumstermine. Die erste Hälfte der Gruppen berichtet am ersten Termin über das erreichte Gruppenergebnis, die andere Hälfte am letzten Termin. Die Teilprojekte sollen u.a. zu einem Gesamtergebnis integriert werden. Die Anteile der Teilnehmer an Präsentationszeit und schriftlicher Ausarbeitung sollen in dieser Phase insgesamt genauso hoch sein wie in der vorangegangenen Phase. Die Materialien zum Gruppenergebnis sind rechtzeitig (s.u.) vor den jeweiligen Präsentationen einzureichen (ein zip-Archiv je Gruppe).
Damit die Ergebnisse in einem einheitlichen Format erscheinen und die genannten Seitenangaben eindeutig sind, müssen alle schriftlichen Ausarbeitungen in MS Word und alle Vortragsfolien in MS PowerPoint erstellt werden. Vorlagen dazu erhalten Sie vom Praktikumsleiter bei der Aufgabenverteilung per email. Im Sinne der Einheitlichkeit dürfen die Vorlageformate nicht verändert werden. Insbesondere müssen die Folien "schmucklos" und ohne visuelle Effekte (dynamisches Aufblenden der Teile einer Folie) gestaltet sein; Abbildungen sind aber durchaus erwünscht.
Als besonders positiv werden Präsentations- und Ausarbeitungsbeiträge gesehen, die erkundete Materialien aus dem Netz (Ontologien, Werkzeuge, Applikationen) (anhand selbst ausprobierter, eigener Beispiele) zur Illustration verwenden. Die Beiträge sollen natürlich nicht nur aus solchen Beispielen bestehen!
Die Ergebnisse müssen bis spätestens zum dritten Kalendertag vor dem nächsten Praktikumstermin per email beim Praktikumsleiter eingehen, damit evtl. Verbesserungen noch vor der Präsentation vorgenommen werden können.
Um dem Praktikumsleiter die Arbeit zu erleichtern, packen Sie bitte jeweils die Ergebnisse in ein zip-Archiv und verwenden Sie für alle Dateinamen folgendes Format: Nachname-Phase-Inhalt.Dateiendung , wobei Phase für einen der Werte (VOR, EIN, GRP) und Inhalt für eine Angabe wie (Folien, Ausarbeitung, Beispiel) steht.
Ort und Zeit
Das Praktikum findet im Electronic Classroom der Fakultät statt. Individueller Zugang zum EC zwecks Installation o.ä. wird voraussichtlich nicht notwendig sein, da Sie alle Materialien frühzeitig (s.o.) beim Praktikumsleiter einreichen. Umfangreichere Installationen nehmen Sie bitte auf eigenen Notebooks vor, die Sie mitbringen. Sollte das nicht möglich sein, treffen Sie mit dem Praktikumsleiter frühzeitig eine geeignete Absprache!
Damit verschiedene Jahrgänge und Studiengänge am Praktikum teilnehmen können, findet es an den folgenden fünf Blockterminen statt (Achtung, kurzfristige Änderungen können wegen mil. Veranstaltungen notwendig werden):
- Mittwoch, 26. Januar, von 13.00 Uhr bis 18.00 Uhr
- Mittwoch, 16. Februar, von 13.00 Uhr bis 18.00 Uhr
- Samstag, 19. Februar, von 9.00 Uhr bis 14.00 Uhr
- Mittwoch, 9. März, von 13.00 Uhr bis 18.00 Uhr
- Mittwoch, 16. März, von 13.00 Uhr bis 18.00 Uhr
Die Vision des Semantic Web
Die folgenden Artikel und Buchkapitel stellen die Vision eines SemanticWeb schlaglichtartig dar:
- The Semantic Web - Die Vision der Visionäre
- How Google beat Amazon and Ebay to the Semantic Web - Eine Science-Fiction-Geschichte von Paul Ford
- Ontologies Come of Age - Deborah McGuinness über den Kernbegriff des Semantic Web
- Ontologies: A Silver Bullet ... - Ein Buch von Dieter Fensel. Kap. 3 über bessere Suchmaschinen. Kap. 4 über B2C und B2B-Anwendungen
Ergänzend dazu sind folgende Einführungen und Überblicksartikel zum technischen Hintergrund empfehlenswert:
- The Semantic Web: A Network of Content for the Digital City - Eine Übersicht von Swartz und Hendler, zuerst lesen!
- The Semantic Web: An Introduction - Ein ausführlicherer Überblick, besonders empfehlenswert!
- The Semantic Web (for Web Developers) - Kurze Einführung in die technische Basis
- Semantic Web - Übersichtsartikel von Dostal, Jeckle(+), Melzer und Zengler
- Semantic Web Services - Artikelserie von Mario Jeckle(+) et al.
Hier die gesammelten Ausarbeitungen der Vorbereitungsphase (in pdf).
XML-Hintergrund
Am ersten Blocktermin werden die relevanten Grundlagen von XML vorgestellt. Dazu die Folien (in pdf):
- XML-Grundlagen - Handzettel-Format
- XML-Verarbeitung - Handzettel-Format
- XML-Beschreibung genauer - Handzettel-Format
Ein paar nützliche XML-Links:
- XML-Tutorial (pdf) von Bergholz (Stanford).
- Online-Validierung (Service der Brown University)
- Beispiel RecipeML
- Tutorial (leicht kommerziell)
- Die offizielle Seite des W3C
- (Die!) Robin Cover Seite
- XML Software Seite
- freie XML-Werkzeuge
- XML-Einstieg der HU Berlin
Techniken, Sprachen, Anwendungen
Die folgenden acht Themenbereiche werden von jeweils einer Gruppe von drei oder zwei Bearbeitern in einer Vortragsserie von einer Stunde vorgestellt. Alle Gruppenteilnehmer arbeiten sich gemeinsam in das Thema ein und regeln die Aufteilung der Vortragsanteile untereinander.
- Ontologien (drei Bearbeiter): Hier soll vor allem dargestellt werden, wie man eine Ontologie aufstellt.
Einschlägige Quellen sind u.a.:- Ontology Development 101: A Guide to Creating Your First Ontology von Noy und McGuinness stellt die Ähnlichkeit von OO Enwurf und Entwicklung einer Ontologie heraus und entwickelt eine Beispielontologie.
- A collaborative Approach to Ontology Design von Holsapple und Joshi beschreibt ebenfalls den Enwurf einer Ontologie (den CACM-Band finden Sie in unserer Bibliothek bei den Zeitschriften).
- SUMO, WordNet sind konkrete Ontologie-Projekte. Stellen Sie eines davon kurz am Ende der Vortragsserie dar.
- RDF und RDFS (drei Bearbeiter):
Einschlägige Quellen sind u.a.:- An RDF Tutorial von Decker und anderen ist eine angenehme Einführung und Übersicht.
- Die Resource Description Framework (RDF) Homepage, der RDF-Primer und die (RDF) Schema Specification 1.0 enthalten alles Wissenswerte, u.a. die RDF-FAQ mit vielen Hinweisen.
- The Semantic Web - on the respective Roles of XML and RDF von Decker und anderen vergleichen XML und RDF(S).
- RSS und FOAF (drei Bearbeiter):
Einschlägige Quellen sind u.a.:- Einstiege sind Writing RSS von Rael Dornfest und RSS Delivers the XML Promise von Peter Wiggin.
- RSS Tutorial for Content Publishers and Webmasters erklärt, worum es geht.
- Die RDF Site Summary (RSS) 1.0 enthält alle Details.
- Eine Einführung in FOAF.
- OWL (zwei Bearbeiter):
Einschlägige Quellen sind u.a.:- OWL Pizzas: Practical Experience of Teaching OWL-DL - praktischer Einstieg anhand einer Beispiel-Ontologie.
- Kapitel 4 des Buchs A Semantic Web Primer von Grigoris Antoniou and Frank van Harmelen; u.a. das Tutorial von Costello und Jacobs mit einem Anwendungsbeispiel.
- Die offiziellen Dokumente: Language Overview, Language Guide und Language Reference
- Prote'ge' mit RACER (drei Bearbeiter):
Einschlägige Quellen sind u.a.:- Die Prote'ge' home page.
- Der Practical Guide To Building OWL Ontologies With The Prote'ge'-OWL Plugin setzt das Pizza-Beispiel fort.
- Unter Evaluation of ontology engineering tools for bioinformatics und Evaluation of ontology merging tools in bioinformatics finden Sie vergleichende Übersichten über verschiedene Ontologie-Werkzeuge.
- Die RACER-Homepage.
- Tutorielles Material von Ian Horrocks et al..
- Chimaera (drei Bearbeiter):
Einschlägige Quellen sind u.a.:- Über die Chimaera home page erhalten Sie Zugang zum Werkzeug und den relevanten Quellen.
- Unter Evaluation of ontology engineering tools for bioinformatics und Evaluation of ontology merging tools in bioinformatics finden Sie vergleichende Übersichten über verschiedene Ontologie-Werkzeuge.
- Theoretischer Hintergrund (zwei Bearbeiter):
Einschlägige Quellen sind u.a.:- Über Conceptual Graphs (wie in RDF verwendet) fast alles auf der CG Homepage und der CG Seite von Sowa. Dazu ein CG Tutorial.
- Der Charger Editor zur Bearbeitung von CGs.
- Als erster Einstieg in die Logischen Grundlagen des Semantic Web die Seminar-Ausarbeitung von G. Göttlich.
- Über Description Logics (wie in OWL verwendet) fast alles auf der DL Homepage.
- Eine gute Darstellung der Ideen der logikbasierten Wissensrepräsentation findet man im ersten Kapitel Wissensrepräsentation und Logik der "Einführung in die Künstliche Intelligenz" von G. Görz.
- Anwendungen (drei Bearbeiter):
Zur Auswahl stehen u.a.:- Die Projekte des Semantic Web Challenge-Wettbewerbs.
- SWAD-Europe, speziell die Demonstrators, u.a. SWED-Projekt.
- Der RETSINA Semantic Web Calendar Agent und der RDF Calendar Workspace
- RDF Applications and Projects, u.a. die Programmiersprache Fabl, die auf RDF und OWL basiert.
- Der WebScripter
- ITTALKS
Eigenes Projekt
Am Ende des Kapitels 7 über Ontology Engineering des Buchs A Semantic Web Primer von Grigoris Antoniou and Frank van Harmelen wird ein Projekt vorgeschlagen, das 2-3 Bearbeiter ca 2-3 Wochen beschäftigen soll. In der Projektphase orientieren wir uns an dem dort beschriebenen Projektablauf, wobei von den Teams folgende Aufgaben zu bearbeiten sind:
-
Stellen Sie in OWL eine Ontologie zum genannten Thema auf und ergänzen Sie sie mit passenden Fakten. Verwenden Sie dabei die Werkzeuge Prote'ge' und RACER.
-
Exportieren Sie die Ontologie von OWL nach RDFS (dabei geht Information verloren) und die zugehörigen Fakten nach RDF.
-
Definieren Sie über RDF-Anfragen interessante Sichten auf die Daten. Erzeugen Sie entweder über RSS oder allein mit XSLT systematisch verlinkte HTML-Darstellungen dieser Sichten.
Vier Teams bearbeiten parallel mehrere einander ergänzende Teilontologien, für die die Lösungen der Aufgaben 1 und 2 am 9. März vorgestellt werden. Drei andere Teams übernehmen das Zusammenführen der Teilontologien bzw. die Erzeugung der HTML-Ergebnisse. Damit dies alles rechtzeitig vor dem 16. März bearbeitet werden kann, müssen die ersten vier Teams ihre Arbeitsergebnisse frühzeitig den Folgeteams zur Verfügung stellen. Die Übergabe soll daher Ende Februar erfolgen.
Das gemeinsame Rahmenthema ist die Organisation von Fahrradtouren. Je drei Personen (davon je eine aus den Einarbeitungsgruppen Ontologien, OWL/Prote'ge' und RDF/RDFS) sollen die folgenden Teilontologien erarbeiten:
-
Fahrräder: Fahrräder und ihre Ausrüstungsbestandteile lassen sich offenbar ähnlich klassifizieren wie Weine oder Pizzas. Eventuell können Sie Werkzeuge wie ConvertToRDF nutzen, um Fakten aus im Web vorhandenen Daten zu gewinnen.
Ergebnis als zip-Archiv -
Personen: Das ist ein weites Feld und erfordert eine Einschränkung auf Aspekte, die mit dem Rahmenthema zusammenhängen: Beispielsweise haben Studenten, Selbständige, Angestellte und Arbeitslose unterschiedliche Zeitrestriktionen. Vorzugsweise werden sich Gruppen zu Fahrradtouren zusammenfinden, deren Mitglieder sich kennen - bei Ehepartnern und Freunden kann man dies voraussetzen. Mitfahren kann nur, wer entweder selbst ein Fahrrad besitzt oder sich ein passendes von einem Freund oder Familienmitglied ausleihen kann. Wer zu weit vom Treffpunkt entfernt wohnt oder über kein geeignetes Transportmittel verfügt, kann nicht mitfahren ... Beschränken Sie sich beim Aufstellen der Ontologie auf eine überschaubare Anzahl relevanter Personenarten und Beziehungen! Beispiele für Ontologien (sowohl OWL als auch RDF/S) finden Sie unter den Online-Materialien zum Buch A Semantic Web Primer.
Ergebnis als zip-Archiv -
Touren: Fahrradtouren können sehr unterschiedlicher Art sein:
- Familientouren, die (fast) jeder mit einem verkehrstauglichen Fahrrad bewältigt.
- Lange Straßentouren, die gute Kondition und eine geeignete Ausrüstung voraussetzen.
- Bergtouren, entweder auf der Straße oder auf Pfaden. Auch hier ist eine gute Kondition und Ausrüstung erforderlich. Der Schwierigkeitsgrad wird neben der Streckenlänge vor allem von den zu überwindenden Höhenunterschieden beeinflusst.
Für die An- und Abreise muss man Start- und Zielort kennen. Genießer werden auf Naturschönheiten, Einkehrmöglichkeiten und Sehenswürdigkeiten Wert legen.
Ergebnis als zip-Archiv -
Erreichbarkeit: Hier geht es um Verbindungen zwischen Orten (Straße, Eisenbahn, Schiff, Seilbahn, etc.) mit Entfernungen, Fahrtdauern, Fahrplänen regelmäßig verkehrender Verkehrsmittel, anfallenden Kosten u.s.w. Untersuchen Sie, ob Sie für die Behandlung von Raum und Zeit passende Ausgangsontologien im Netz finden und ob Sie Werkzeuge wie ConvertToRDF nutzen können, um Fakten aus im Web vorhandenen Daten zu gewinnen.
Ergebnis als zip-Archiv
Da es uns nicht um die Entwicklung einer vollständigen Anwendung geht, sondern um Erfahrungen mit der Technologie und den Werkzeugen des Semantic Web, sollen die Ontologien nicht alles Denkbare zum Thema erfassen, sondern eher klein gehalten werden, aber die Formulierung interessanter Fragen und Beziehungen zu formulieren gestatten!
Jedes Team hat eine Stunde Präsentationszeit. Als schriftliche Arbeitsegebnisse fallen (je Team!!) an:
-
Die Ontologie und Fakten in OWL.
-
Die Ontologie und Fakten in RDF/S.
-
Ein Arbeitsbericht, der die inhaltlichen Schritte am Beispiel erläutert. Vermeiden Sie "Erlebnisberichte". Es muss nicht jedes Detail beschrieben werden, sondern interessante Konstruktionen, Ergebnisse, Erfahrungen exemplarisch. Beschreiben Sie, wie Sie im Prinzip vorgegangen sind, welche Werkzeuge Sie eingesetzt haben, was sich dabei als nützlich erwies und was weniger nützlich war. Der Beitrag jedes Bearbeiters zum Arbeitsbericht des Teams soll etwa 10 Seiten umfassen.
-
Das Chimeara-Team aus der Einarbeitungsphase erhält den Auftrag, die Teilontologien A-D zusammenzuführen. Präsentationszeit und Arbeitsergebnisse wie gerade beschrieben.
Ergebnis als zip-Archiv -
Die beiden letzten Teams haben jeweils mindestens ein Gruppenmitglied des RSS-Teams aus der Einarbeitungsphase. Sie wählen Ende Februar in Absprache mit dem Praktikumsleiter je eine der Teilontologien A-D aus und generieren aus der RDF-Darstellung werkzeuggestützt verlinkte HTML-Darstellungen (siehe Aufgabe 3 oben). Für die Erzeugung der Sichten schlägt das Buch A Semantic Web Primer vor, eines der Werkzeuge Sesame, KAON oder JENA zu verwenden.
Ergebnis von Team 6 als zip-Archiv
Ergebnis von Team 7 als zip-Archiv
Weitere Quellen und Einstiegspunkte
Der Leitfaden für das Praktikum ist das Buch A Semantic Web Primer von Grigoris Antoniou and Frank van Harmelen. Wichtige Begleitinformationen zum Buchinhalt sind online über diesen Link verfügbar (links unten unter Related Links: Companion Site).
Die offizielle Quelle ist die Semantic Web Homepage des W3.org.
Und die alte SemanticWeb.org (alt) und die neue SemanticWeb.org (im Aufbau) Homepage von SemanticWeb.org.