(click here for English version / für englische Version hier klicken)

Die Deutsche Malaga-Morphologie (DMM)

Was ist DMM?

DMM ist ein System zu automatischen Erkennung von Wortformen für das Deutsche. DMM erfüllt folgende Aufgaben:

Wie funktioniert DMM?

DMM verwendet den Grammatikformalismus der linksassoziativen Grammatik (LAG). LAGs basieren im Gegensatz zu Phrasenstrukturgrammatiken, die auf dem Prinzip der möglichen Ersetzungen basieren, auf dem Prinzip der möglichen Fortsetzungen. Eingaben werden linksassoziativ (also von links nach rechts bzw. in Schreibrichtung) analysiert. Die Analyse ist dabei zeitlinear und oberflächenkompositional, d.h. daß die Segmente der Eingabe in ihrer Auftretensreihenfolge (von links nach rechts) konkateniert werden und daß jede Regelanwendung zwingenderweise mit dem Einlesen genau eines Segments verbunden ist. Daher verhalten sich LAGs hinsichtlich ihrer Komplexität sehr vorteilhaft.

Wie ist DMM implementiert?

DMM ist mit Hilfe des LAG-Implementationssoftware MALAGA erstellt worden, die von Björn Beutel an der Abteilung für Computerlinguistik entwickelt wurde. MALAGA besteht aus: Weitere Informationen zu MALAGA finden sie hier.

Was für Lexika verwendet DMM?

DMM arbeitet mit einem Grundformlexikon mit ca. 50.000 Grundformen, bestehend aus: Aus diesen 50.000 Grundformen werden dann regebasiert ca. 67.000 Allomorphe (Segmente) generiert, die dann von der Laufzeitkomponente regelhaft zu Wortformen kombiniert werden.

Wie sehen DMM-Analysen aus?

DMM liefert für eine analysierte Wortform nicht ein einzelnes Tag als Ergebnis, sondern komplexe Attribut-Werte-Strukturen. Die Beispielanalyse für die Wortform Bundesverfassungsgericht sieht aus wie folgt:

DMM liefert als Ergebnis eine Liste (angezeigt durch die spitzen Klammern) von Analysen . Jede Analyse ist ein Verbund (angezeigt durch die eckigen Klammern), der Attribut-Werte-Paare enthält. Bei obigem Beispiel enthält die Ergebnisliste genau eine Analyse, die folgende Informationen enthält:

(Dieses Ausgabeformat ist eine reduzierte Form des internen Formats, das reichhaltiger ist).

Ein (ziemlich großes) Bild des Ableitungsbaumes gibt es hier.

Was leistet DMM?

Die Erkennungsrate von morphologischen Analysesystemen hängt von vielen Faktoren ab; dies sind neben das System betreffenden Faktoren wie z.B. Lexikongröße in erster Linie textuelle Faktoren wie z.B. die Domäne (also das Sachgebiet) des Texts.

Jede Domäne verfügt über einen domänenspezifischen Wortschatz, also einem Anteil am Wortschatz, der ausschließlich oder gehäuft in dieser Domäne verwendet wird. Dieser domänenspezifische Wortschatz ist je nach Domäne verschieden groß. Domänen wie z.B. Sport haben dabei einen relativ kleinen domänenspezifischen Wortschatz; andere wie z.B. Medizin haben einen sehr großen Domänenspezifischen Wortschatz.

Da das Grundformlexikon von DMM hauptsächlich allgemeinsprachlichen Wortschatz enthält, ist die Erkennungsrate bei Domänen mit einem großen domänenspezifischen Wortschatz geringer. Dies hängt damit zusammen, daß Texte aus solchen Domänen aufgrund ihres großen Wortschatzes ein ungünstigeres Token/Type-Verhältnis aufweisen. Unter dem Token/Type-Verhältnis versteht man das Verhältnis aus Wortforminstanzen (Tokens) und Wortformprototypen (Types). Ein Text, der z.B. 1000 Wortformen lang ist (1000 Tokens), kann aus nur 100 verschiedenen Wortformen bestehen (100 Types); dieser Text hätte also ein Token/Type-Verhältnis von 10, d.h. jeder Type kommt im Schnitt 10 mal vor. Je geringer dieser Wert ist, desto höher ist der lexikalische Reichtum des Texts. Ein niedriges Token/Type-Verhältnis wirkt sich erfahrungsgemäß negativ auf die Erkennungsrate aus.

DMM wurde verwendet, um die in der Abteilung für Computerlinguistik entwickelten CLUE-Korpora zu annotieren. Dabei wurden für die verschiedenen domänenspezifischen Teilkorpora folgende Erkennungsraten ermittelt:

Korpus Tokens unbekannt in % Types unbekannt in % Tokens pro Type
Bibel 1.131.536 24.907 2,20 37.031 7.099 19,17 30,56
Limas 1.236.774 32.549 2,63 121.650 17.544 14,42 10,16
Sport 1.140.121 57.967 5,08 64.799 14.506 22,38 17,59
EDV 1.000.001 100.825 10,08 100.208 33.233 33,16 9,98
Medizin 1.017.646 139.682 13,72 104.425 38.004 36,29 9,74
Total 5.526.079 355.930 6,44 324.570 103.432 31,86 17,02

Wie man sieht, ist die Anzahl der unbekannten Wortformen gering, wenn das Token/Type-Verhältnis hoch ist (wie bei Bibel und Sport), dafür aber höher, wenn das Token/Type-Verhältnis niedriger ist (wie bei EDV und Medizin). Das Limas-Korpus macht hier eine Ausnahme; der Prozentsatz der unbekannten Wortformen ist hier niedrig, obwohl das Token/Type-Verhältnis niedrig ist. Der Grund dafür ist, daß das Limas-Korpus als empirische Grundlage für die Erweiterung der Grundformlexika verwendet wird.

Was die Korrektheit der Analysen angeht, so wurden die Analysen von 1000 zufällig aus dem Limas-Korpus ausgewählten Wortformen manuell ausgewertet. Dabei ergab sich folgendes Bild:

(Fehler-)Klasse Anzahl %
korrekt analysiert 913 91,3
korrekte Hypothese 3 0,3
syntaktisch korrekt, falsche Segmentierung 1 0,1
ambig mit korrekter und unkorrekter Lesart 44 4,4
syntaktisch falsch 5 0,5
fehlende Ambiguität 4 0,4
nicht erkannt 25 2,5
fehlerhafte Eingabe (Rechtschreibfehler) 5 0,5
Total 1000 100,0

Kann ich DMM interaktiv testen?

Ja, und zwar auf der Malaga-Seite.

Gibt es eine Dokumentation zu DMM?

Gibt es leider noch keine. DMM wird im Rahmen einer Doktorarbeit weiterentwickelt; dabei soll auch eine umfangreiche Dokumentation zu DMM entstehen.

Zur Verfügung steht jedoch eine Magisterarbeit, die eine ältere Version von DMM beschreibt:

Noch Fragen zu DMM?

Bei Fragen wenden Sie sich bitte an Oliver Lorenz.