Das Web der Zukunft soll "verstehen" können

Archivmeldung vom 01.06.2006

Bitte beachten Sie, dass die Meldung den Stand der Dinge zum Zeitpunkt ihrer Veröffentlichung am 01.06.2006 wiedergibt. Eventuelle in der Zwischenzeit veränderte Sachverhalte bleiben daher unberücksichtigt.

Freigeschaltet durch Thorsten Schmitt

"Die Inhalte des Webs der Zukunft werden viel stärker für Computer verständlich sein", ist sich Univ.-Prof. Dr.-Ing. Matthias L. Hemmje sicher. Der Leiter des Lehrgebiets Multimedia und Internetanwendungen der FernUniversität in Hagen ist eingeladen worden, an einem Projekt mitzuarbeiten, das genau hierzu beitragen soll:

Das multidisziplinäre EU-Integrationsprojekt "Virtuelles Informations- und Wissens-Umgebungs-Framework" (VIKEF) soll dazu beitragen, die in gewaltigen Mengen in Netzen vorhandenen Informationen schnell und effektiv für neue Anwendungen nutzbar zu machen.

Wissen ist die Ressource Nummer 1 der Informations- und Wissensgesellschaft. In netzbasierten Dokumentinhalten implizit verborgen muss es jedoch zunächst explizit, d. h. in maschinenlesbarer Form, erfasst, strukturiert und damit für eine automatisierte Bearbeitung zugänglich gemacht werden. Für Menschen ist das nur ein Zeitproblem, sie können aus dem Textzusammenhang die gerade zutreffende Bedeutung eines Wortes oder Satzteils interpretieren. Viel schneller im Lesen sind Computer, aber sie könnten die Semantik - die Bedeutung des Gelesenen, insbesondere im Zusammenhang mit einem Informationsbedüfnis oder einer Arbeitssituation ihres menschlichen Benutzers - nicht automatisch erkennen. Und damit keine Inhalte quasi stellvertretend für ihren Benutzer verstehen und bewerten. Matthias Hemmje: "Computer erkennen z. B. in einem Text nur eine Aneinanderreihung von Zeichen in einem bestimmten strukturellen Format, in einem Bild nur eine Folge von verschiedenfarbigen Bildpunkten. Sie verstehen aber nicht deren Bedeutung und können deshalb auch keine Zusammenhänge mit den Informationsbedürfnissen ihrer menschlichen Benutzer herstellen."

Also können gefundene Inhalte auch nicht selbständig sinnvoll in neue Zusammenhänge gefügt und damit z. B. den Benutzern quasi proaktiv als nützliche Information für deren Bedürfnisse oder Arbeitssituationen angepasst zur Verfügung gestellt werden.

Die Maschine "weiß" z. B. lediglich: Es handelt sich bei einem vorliegenden Text um die Buchstabenfolge H-A-N-D-Y auf der Seite 93 im Kapitel 7, Absatz 3 eines bestimmten Dokumentes. In Deutschland ist mit "Handy" ein mobiles Funktelefon gemeint. In vielen anderen Sprachen nennt man ein solches Gerät "Mobile" - ein Begriff, der im Deutschen wiederum für eine kinetische Plastik steht, die aufgehängt und durch Luftzug bewegt wird. Hemmje: "Und dann erhalten Sie eine SMS auf Ihre kinetische Plastik... Meint jedenfalls Ihr 'lesender' PC."

VIKEF geht diese Herausforderung zur Entschlüsselung und expliziten Kodierung der Semantik von Webinhalten auf der Basis eines technologischen Rahmenwerkes an, um Wissen automatisch aus textuellen und multimedialen Inhalten zu schöpfen. Universitäten, Forschungseinrichtungen und Unternehmen aus neun Ländern arbeiten bereits seit 2004 an diesem Projekt, bei dem Dokumente und Bildmedien mit Verfahren der Linguistik und der Bildanalyse hinsichtlich der Bedeutung ihrer Inhalte untersucht werden.

Das gewonnene Wissen wird in einer einheitlichen wissenstechnischen Infrastruktur - einer Virtuellen Informations- und Wissensumgebung - zur Weiterverarbeitung bereitgestellt. So kann es genutzt werden, um computerlesbare Wissensrepräsentationen für die analysierten Inhalte zu erzeugen. In einem weiteren Schritt werden die Informationen zusammen mit dem computerlesbar repräsentierten Wissen nicht mehr nur automatisch interpretiert, sondern zielgerichtet für spezifische Anwendungen - z. B. im Bereich wissenschaftlicher Kongresse und Handelsmessen - aufbereitet und danach proaktiv den Benutzern zur Verfügung gestellt.

Damit derartiges explizit kodiertes Wissen überhaupt gezielt und effektiv von Maschinen zur Unterstützung von menschlichen Benutzern in deren Informationsbedürfnissen und Arbeitsaufgaben genutzt werden kann, müssen sie z. B. die auf eine Zeichenfolge im Kontext des Gesamttextes zutreffende Wortbedeutungen verstehen und diese auf versteckte Art und Weise der Zeichenkette in maschinenlesbarer Form hinzufügen. Diese sogenannte semantische Annotation funktioniert über Markups in den XML-basierten Wissensrepräsentationssprachen RDF und OWL, die danach unsichtbar mit der "Buchstabenfolge" verknüpft sind.

Diese Markups müssen Wortbedeutungen darstellen, die in allen Sprachen inhaltlich identisch sind: "Zurzeit sind sie aber noch ziemlich beliebig", bedauert Hemmje, "wir müssen deshalb für die Bezeichnung dieser Wortbedeutungen geeignete Vokabulare finden und festlegen, die weltweit in gleicher Weise verwendet wird und gleichzeitig maschinenlesbar sind." Mit Hilfe dieser Zusatzinformationen können Maschinen die zutreffende Bedeutung des Inhalts dann zukünftig ohne eine erneute Inhaltsanalyse ableiten und z. B. ein Banküberweisungformular im Web automatisch erkennen oder eine Flugbuchungseite nicht mit einer Anmeldungsseite im Web für eine Konferenzveranstaltung oder eine Handelsmesse verwechseln.

Selbst Bilder können so maschinell in Anfängen "verstanden" werden: Eine Straße, die über ein Wasser führt, könnte als "Brücke" interpretiert, Menschen um einen Tisch herum sitzend als Essens- oder Gesprächsrunde, je nachdem, ob auch Speisen oder Dokumente auf dem Tisch erkennbar sind. In Messekatalogen könnten darüber hinaus z. B. abgebildete Produkte mit deren textuellen Beschreibungen automatisch verknüpft werden usw.

Nach der Analyse von Inhalten werden in der sogenannten "Semantischen Wissensverarbeitungs-Pipeline" von VIKEF derzeit noch die Anmerkungen zu den Wortbedeutungen, also semantische Annotationen, vom System lediglich vorgeschlagen. Daraus muss dann vorerst noch ein Mensch die richtige Bedeutung auswählen. In einem weitergehenden Ansatz von VIKEF "lernt" das System jedoch dann auch aus diesem Feedback mit Methoden des maschinellen Lernens und der künstlichen Intelligenz. Im günstigsten Fall kann es dann Schlussfolgerungsregeln für die selbstständige und damit vollautomatische Erkennung von Inhalten auf der Basis von weltweit einheitlich verwendeten Vokabularen (sogenannte Ontologien) aus dem Gelernten ableiten.

Zunächst sieht VIKEF vor, modellhafte Lösungen für wissenschaftliche Kongresse und für Messen und Ausstellungen zu erarbeiten. Matthias Hemmje und sein Mitarbeiter Gerald Jäschke, die bereits früher an der Entwicklung von Kongress- und Messeinformationssystemen gearbeitet haben, werden nun hierfür Spezifikationen und Prototypen für neuartige Mechanismen mitentwickeln, um innerhalb dieser Systeme Wissen automatisch zu repräsentieren und zu verarbeiten.

Dabei sollen diese Systeme in Zukunft nicht nur Web-Inhalte automatisch produzieren, sondern auch die notwendige semantische Annotation gleich schon zum Pulikationszeitpunkt leisten, um eine spätere Inhaltanalyse überflüssig zu machen. Die dazu notwendigen semantischen Ontologien müssen vom Projekt für den Bereich von Messe- und Kongressinformationssystemen erstmals aufgebaut werden, um solche Veranstaltungen und die damit verbundenen Daten und Informationen beschreiben zu können.

Allerdings kann eine spezielle Ontologie aus einer ggf. bereits vorhandenen allgemeineren oder für andere Kontexte gedachten Ontologie abgeleitet werden: "Am Ende könnte ein System von derartigen auseinander abgeleiteten und deshalb kontextuell miteinander verknüpften Ontologien für die automatische Verarbeitung wesentliche Teile des Weltwissens repräsentieren", blickt Prof. Hemmje in die ferne Zukunft.

Von sich aus bot er darüber hinaus mit seinem Mitarbeiter Dominic Heutelbeck ein weiteres Anwendungsszenario für E-Learning an, in dem VIKEF-Ergebnisse direkt an der FernUniversität innerhalb von Lehrveranstaltungen genutzt und evaluiert werden. Beispielhaft wollen die beiden dort eine Lehrveranstaltung entwickeln, in der Lernkomponenten durch semantische Verknüpfungen halbautomatisch in Kursprogramme und Kursbeschreibungen eingebunden werden: Studienrelevante Inhalte könnten darauf aufbauend in zukünftigen Versionen eines derartigen Vorgehens automatisch erkannt, für eine Verknüpfung vorgeschlagen und ggf. im Studienplan per Verknüpfung darauf verwiesen werden.

Wenn das Projekt am 31. Mai 2007 endet, soll es eine Brücke zwischen dem jetzigen weitestgehend rein syntaktischen und dem zukünftigen Semantischen Web geschlagen haben, in dem Wörter und Sätze für Computer mehr sind als eine Aneinanderreihung von Zeichen.

Quelle: Pressemitteilung Informationsdienst Wissenschaft e.V.

Das Web der Zukunft soll "verstehen" können

Archivmeldung vom 01.06.2006

Gern gelesene Artikel

Griechenland kämpft weiter mit Waldbränden ‒ ohne russische Löschflugzeuge

Niederlande: Richterin kritisiert These vom russischen Abschuss der MH17 und kündigt nach Mobbing

Wall Street Journal: Abgewürgte Offensive bringt Biden in politisch unangenehme Lage

Anzeige gegen Spahn: Türkei lässt Chlordioxid als Arzneimittel zu

CIA-Neurobiologie-Experte über die Steuerung des menschlichen Gehirns mittels RNA-Impfstoffen

Moskau: NATO wird bei der Konfrontation mit Russland in der Ukraine in gefährliche Aktionen hineingezogen

Angriffe auf Donauhäfen lassen die Ukraine ohne Geld und Waffen

Dr. Mercola: Covid-19-Impfung kann zur Verstärkung der Krankheit bei Widerbefall und Bildung von Mutationen führen

Die geplante Zerstörung Europas: Angela Merkel und der Coudenhove-Kalergi-Plan

"Angeklagt, Ricarda Lang für dick zu halten" – Justizposse um den Blogger Hadmut Danisch

Russland beginnt mit dem Bau von Wohnhochhäusern aus Holz

Warschau schäumt vor Wut: Putin hat Polen an Stalins Geschenk erinnert

Ukraine: Bevölkerungsschwund bedroht dauerhaft jede wirtschaftliche Erholung

Was wollte Kissinger in Peking?

Die Gefährlichkeit von COVID-19 wurde übertrieben – mit fatalen Folgen