Zukunftsmusik Kürzen, streichen, zusammenfassen

Wenn es nach Wissenschaftlern geht, dann können Computer schon bald lernen, Texte sinnvoll zusammenzufassen. In zwei Jahren könnte es soweit sein, meinen Computerlinguisten. Natürlich sollen die maschinellen Kurzfassungen den Vergleich mit den Textzusammenfassungen, die von Menschen erstellt wurden, aushalten können.

Jena - "Bereits in rund zwei Jahren werden benutzerfreundliche Programme auf den Markt kommen, die den Inhalt langer Texte in wenigen Zeilen wiedergeben können", sagte der Jenaer Sprachwissenschaftler Udo Hahn in einem dpa-Gespräch. "Die maschinell erstellten Kurzfassungen sind so verständlich und nutzbar wie die von Menschen erstellten."

Alle "Textarbeiter" - also etwa Studenten, Forscher und Journalisten - bekämen damit ein wichtiges Instrument an die Hand, den Inhalt eines Texts stichpunktartig zu erfassen und viel Zeit zu sparen. "Die Technologie wird sich schnell durchsetzen und bald so unabdingbar sein wie die Internet-Suchmaschine Google", prophezeite Hahn. "Das ist ein riesengroßer Markt." Derzeit testeten Forschungslabors bereits frühe Versionen der Programme.

Wissenschaftler versuchen nach Angaben von Hahn, Computern mit zwei Verfahren das Zusammenfassen beizubringen. "Bei der ersten Methode streicht die Maschine einfach alle unwichtigen Passagen", sagte er. "In den meisten Texten sind die ersten und die letzen Sätze besonders wichtig - die bleiben stehen."

Einteilung in Oberbegriffe

An der Häufigkeit von bestimmten Begriffen lasse sich zudem die Wichtigkeit einer Passage ableiten. Auch an Signalwörtern wie "zusammenfassend" oder "schließlich" ließen sich bedeutsame Sätze erkennen. Andere Phrasen wie "in die Tiefe gehen" oder "im Detail" deuteten eher unwichtige Teile an, die herausgestrichen würden.

Eine andere Herangehensweise arbeitet mit der Einteilung in Oberbegriffe. "Fachbegriffe lassen sich hierarchisch gliedern", erklärte Hahn. Hepatitis lasse sich beispielsweise unter die Rubrik Organerkrankungen und noch eine Ebene höher unter Krankheiten unterordnen. Die Software versuche nun, den Text auf die "höheren" Ebenen zu konzentrieren und die Details der "unteren" Ebenen auszublenden. "Dazu ist allerdings eine große Wissensbank mit Spezialbegriffen für die vielen Hundert Fachdisziplinen notwendig."

Diese Datenbanken zur Verfügung zu stellen, ist eines der Projekte von Hahns Forscherteam. "Die Vision ist es, einen Computer mit Hunderten Fachartikeln zu füttern, aus denen er sich die wichtigen Wörter selbst lernend heraus sucht." Hahns Gruppe arbeitet zudem daran, die Computerprogramme robust zu machen. "Es geht darum, dass die Software sich nicht aufhängt, wenn etwa ein Wort nicht im Lexikon zu finden ist, oder Umgangssprache verwendet wird."

Die Wiedergabe wurde unterbrochen.