Das Web der Zukunft soll "verstehen" können
Archivmeldung vom 01.06.2006
Bitte beachten Sie, dass die Meldung den Stand der Dinge zum Zeitpunkt ihrer Veröffentlichung am 01.06.2006 wiedergibt. Eventuelle in der Zwischenzeit veränderte Sachverhalte bleiben daher unberücksichtigt.
Freigeschaltet durch Thorsten Schmitt"Die Inhalte des Webs der Zukunft werden viel stärker für Computer verständlich sein", ist sich Univ.-Prof. Dr.-Ing. Matthias L. Hemmje sicher. Der Leiter des Lehrgebiets Multimedia und Internetanwendungen der FernUniversität in Hagen ist eingeladen worden, an einem Projekt mitzuarbeiten, das genau hierzu beitragen soll:
Das multidisziplinäre EU-Integrationsprojekt "Virtuelles Informations- und
Wissens-Umgebungs-Framework" (VIKEF) soll dazu beitragen, die in gewaltigen
Mengen in Netzen vorhandenen Informationen schnell und effektiv für neue
Anwendungen nutzbar zu machen.
Wissen ist die Ressource Nummer 1 der
Informations- und Wissensgesellschaft. In netzbasierten Dokumentinhalten
implizit verborgen muss es jedoch zunächst explizit, d. h. in maschinenlesbarer
Form, erfasst, strukturiert und damit für eine automatisierte Bearbeitung
zugänglich gemacht werden. Für Menschen ist das nur ein Zeitproblem, sie können
aus dem Textzusammenhang die gerade zutreffende Bedeutung eines Wortes oder
Satzteils interpretieren. Viel schneller im Lesen sind Computer, aber sie
könnten die Semantik - die Bedeutung des Gelesenen, insbesondere im Zusammenhang
mit einem Informationsbedüfnis oder einer Arbeitssituation ihres menschlichen
Benutzers - nicht automatisch erkennen. Und damit keine Inhalte quasi
stellvertretend für ihren Benutzer verstehen und bewerten. Matthias Hemmje:
"Computer erkennen z. B. in einem Text nur eine Aneinanderreihung von Zeichen in
einem bestimmten strukturellen Format, in einem Bild nur eine Folge von
verschiedenfarbigen Bildpunkten. Sie verstehen aber nicht deren Bedeutung und
können deshalb auch keine Zusammenhänge mit den Informationsbedürfnissen ihrer
menschlichen Benutzer herstellen."
Also können gefundene Inhalte auch
nicht selbständig sinnvoll in neue Zusammenhänge gefügt und damit z. B. den
Benutzern quasi proaktiv als nützliche Information für deren Bedürfnisse oder
Arbeitssituationen angepasst zur Verfügung gestellt werden.
Die Maschine
"weiß" z. B. lediglich: Es handelt sich bei einem vorliegenden Text um die
Buchstabenfolge H-A-N-D-Y auf der Seite 93 im Kapitel 7, Absatz 3 eines
bestimmten Dokumentes. In Deutschland ist mit "Handy" ein mobiles Funktelefon
gemeint. In vielen anderen Sprachen nennt man ein solches Gerät "Mobile" - ein
Begriff, der im Deutschen wiederum für eine kinetische Plastik steht, die
aufgehängt und durch Luftzug bewegt wird. Hemmje: "Und dann erhalten Sie eine
SMS auf Ihre kinetische Plastik... Meint jedenfalls Ihr 'lesender'
PC."
VIKEF geht diese Herausforderung zur Entschlüsselung und expliziten
Kodierung der Semantik von Webinhalten auf der Basis eines technologischen
Rahmenwerkes an, um Wissen automatisch aus textuellen und multimedialen Inhalten
zu schöpfen. Universitäten, Forschungseinrichtungen und Unternehmen aus neun
Ländern arbeiten bereits seit 2004 an diesem Projekt, bei dem Dokumente und
Bildmedien mit Verfahren der Linguistik und der Bildanalyse hinsichtlich der
Bedeutung ihrer Inhalte untersucht werden.
Das gewonnene Wissen wird in
einer einheitlichen wissenstechnischen Infrastruktur - einer Virtuellen
Informations- und Wissensumgebung - zur Weiterverarbeitung bereitgestellt. So
kann es genutzt werden, um computerlesbare Wissensrepräsentationen für die
analysierten Inhalte zu erzeugen. In einem weiteren Schritt werden die
Informationen zusammen mit dem computerlesbar repräsentierten Wissen nicht mehr
nur automatisch interpretiert, sondern zielgerichtet für spezifische Anwendungen
- z. B. im Bereich wissenschaftlicher Kongresse und Handelsmessen - aufbereitet
und danach proaktiv den Benutzern zur Verfügung gestellt.
Damit
derartiges explizit kodiertes Wissen überhaupt gezielt und effektiv von
Maschinen zur Unterstützung von menschlichen Benutzern in deren
Informationsbedürfnissen und Arbeitsaufgaben genutzt werden kann, müssen sie z.
B. die auf eine Zeichenfolge im Kontext des Gesamttextes zutreffende
Wortbedeutungen verstehen und diese auf versteckte Art und Weise der
Zeichenkette in maschinenlesbarer Form hinzufügen. Diese sogenannte semantische
Annotation funktioniert über Markups in den XML-basierten
Wissensrepräsentationssprachen RDF und OWL, die danach unsichtbar mit der
"Buchstabenfolge" verknüpft sind.
Diese Markups müssen Wortbedeutungen
darstellen, die in allen Sprachen inhaltlich identisch sind: "Zurzeit sind sie
aber noch ziemlich beliebig", bedauert Hemmje, "wir müssen deshalb für die
Bezeichnung dieser Wortbedeutungen geeignete Vokabulare finden und festlegen,
die weltweit in gleicher Weise verwendet wird und gleichzeitig maschinenlesbar
sind." Mit Hilfe dieser Zusatzinformationen können Maschinen die zutreffende
Bedeutung des Inhalts dann zukünftig ohne eine erneute Inhaltsanalyse ableiten
und z. B. ein Banküberweisungformular im Web automatisch erkennen oder eine
Flugbuchungseite nicht mit einer Anmeldungsseite im Web für eine
Konferenzveranstaltung oder eine Handelsmesse verwechseln.
Selbst Bilder
können so maschinell in Anfängen "verstanden" werden: Eine Straße, die über ein
Wasser führt, könnte als "Brücke" interpretiert, Menschen um einen Tisch herum
sitzend als Essens- oder Gesprächsrunde, je nachdem, ob auch Speisen oder
Dokumente auf dem Tisch erkennbar sind. In Messekatalogen könnten darüber hinaus
z. B. abgebildete Produkte mit deren textuellen Beschreibungen automatisch
verknüpft werden usw.
Nach der Analyse von Inhalten werden in der
sogenannten "Semantischen Wissensverarbeitungs-Pipeline" von VIKEF derzeit noch
die Anmerkungen zu den Wortbedeutungen, also semantische Annotationen, vom
System lediglich vorgeschlagen. Daraus muss dann vorerst noch ein Mensch die
richtige Bedeutung auswählen. In einem weitergehenden Ansatz von VIKEF "lernt"
das System jedoch dann auch aus diesem Feedback mit Methoden des maschinellen
Lernens und der künstlichen Intelligenz. Im günstigsten Fall kann es dann
Schlussfolgerungsregeln für die selbstständige und damit vollautomatische
Erkennung von Inhalten auf der Basis von weltweit einheitlich verwendeten
Vokabularen (sogenannte Ontologien) aus dem Gelernten ableiten.
Zunächst
sieht VIKEF vor, modellhafte Lösungen für wissenschaftliche Kongresse und für
Messen und Ausstellungen zu erarbeiten. Matthias Hemmje und sein Mitarbeiter
Gerald Jäschke, die bereits früher an der Entwicklung von Kongress- und
Messeinformationssystemen gearbeitet haben, werden nun hierfür Spezifikationen
und Prototypen für neuartige Mechanismen mitentwickeln, um innerhalb dieser
Systeme Wissen automatisch zu repräsentieren und zu verarbeiten.
Dabei
sollen diese Systeme in Zukunft nicht nur Web-Inhalte automatisch produzieren,
sondern auch die notwendige semantische Annotation gleich schon zum
Pulikationszeitpunkt leisten, um eine spätere Inhaltanalyse überflüssig zu
machen. Die dazu notwendigen semantischen Ontologien müssen vom Projekt für den
Bereich von Messe- und Kongressinformationssystemen erstmals aufgebaut werden,
um solche Veranstaltungen und die damit verbundenen Daten und Informationen
beschreiben zu können.
Allerdings kann eine spezielle Ontologie aus einer
ggf. bereits vorhandenen allgemeineren oder für andere Kontexte gedachten
Ontologie abgeleitet werden: "Am Ende könnte ein System von derartigen
auseinander abgeleiteten und deshalb kontextuell miteinander verknüpften
Ontologien für die automatische Verarbeitung wesentliche Teile des Weltwissens
repräsentieren", blickt Prof. Hemmje in die ferne Zukunft.
Von sich aus
bot er darüber hinaus mit seinem Mitarbeiter Dominic Heutelbeck ein weiteres
Anwendungsszenario für E-Learning an, in dem VIKEF-Ergebnisse direkt an der
FernUniversität innerhalb von Lehrveranstaltungen genutzt und evaluiert werden.
Beispielhaft wollen die beiden dort eine Lehrveranstaltung entwickeln, in der
Lernkomponenten durch semantische Verknüpfungen halbautomatisch in Kursprogramme
und Kursbeschreibungen eingebunden werden: Studienrelevante Inhalte könnten
darauf aufbauend in zukünftigen Versionen eines derartigen Vorgehens automatisch
erkannt, für eine Verknüpfung vorgeschlagen und ggf. im Studienplan per
Verknüpfung darauf verwiesen werden.
Wenn das Projekt am 31. Mai 2007
endet, soll es eine Brücke zwischen dem jetzigen weitestgehend rein
syntaktischen und dem zukünftigen Semantischen Web geschlagen haben, in dem
Wörter und Sätze für Computer mehr sind als eine Aneinanderreihung von Zeichen.
Quelle: Pressemitteilung Informationsdienst Wissenschaft e.V.