
(click
here for English version / für englische Version hier klicken)
Die Deutsche Malaga-Morphologie (DMM)
Was ist DMM?
DMM ist ein System zu automatischen Erkennung von Wortformen für das
Deutsche. DMM erfüllt folgende Aufgaben:
- Kategorisierung, also Zusweisung von Kategorien wie
Wortklasse, Kasus, Genus, Numerus, Person, Tempus etc.
- Lemmatisierung, also Zuweisung einer Grundform zu der
analysierten Wortform
- Segmentierung, also Ermittlung der Morpheme, aus der die Wortform
zusammengesetzt ist.
Wie funktioniert DMM?
DMM verwendet den Grammatikformalismus der linksassoziativen
Grammatik (LAG). LAGs basieren im Gegensatz zu
Phrasenstrukturgrammatiken, die auf dem Prinzip der möglichen
Ersetzungen basieren, auf dem Prinzip der möglichen
Fortsetzungen. Eingaben werden linksassoziativ (also von
links nach rechts bzw. in Schreibrichtung) analysiert. Die Analyse ist
dabei zeitlinear und oberflächenkompositional, d.h. daß
die Segmente der Eingabe in ihrer Auftretensreihenfolge (von links
nach rechts) konkateniert werden und daß jede Regelanwendung
zwingenderweise mit dem Einlesen genau eines Segments verbunden
ist. Daher verhalten sich LAGs hinsichtlich ihrer Komplexität sehr
vorteilhaft.
Wie ist DMM implementiert?
DMM ist mit Hilfe des LAG-Implementationssoftware MALAGA
erstellt worden, die von Björn Beutel an der Abteilung für
Computerlinguistik entwickelt wurde. MALAGA besteht aus:
- einer Programmiersprache, die ebenfalls MALAGA heißt
- Regel- und Lexikoncompilern, die die vom Entwickler geschriebenen
Grammatikkomponenten in ein binäres Format übersetzen
- einer Laufzeitkomponente (einem Parser-Motor), mit deren Hilfe
dann Wortformen oder ganze Texte analysiert werden können
- einer Reihe von Softwaretools, die die Entwicklung unterstützen
bzw. die Einbindung in andere Software ermöglichen, wie z.B. ein Perl-Modul,
das von Michael Piotrowski entwickelt wurde.
Weitere Informationen zu MALAGA finden sie hier.
Was für Lexika verwendet DMM?
DMM arbeitet mit einem Grundformlexikon mit ca. 50.000 Grundformen,
bestehend aus:
- 20.400 Substantive
- 11.200 Adjektive
- 10.900 Eigennamen
- 6.200 Verben
- Rest: Funktionswörter (Artikel, Präpositionen, etc.),
Flexionsendungen, Präfixe, Fugenelemente, usw.
Aus diesen 50.000 Grundformen werden dann regebasiert ca. 67.000
Allomorphe (Segmente) generiert, die dann von der Laufzeitkomponente
regelhaft zu Wortformen kombiniert werden.
Wie sehen DMM-Analysen aus?
DMM liefert für eine analysierte Wortform nicht ein einzelnes Tag als
Ergebnis, sondern komplexe Attribut-Werte-Strukturen. Die
Beispielanalyse für die Wortform Bundesverfassungsgericht sieht
aus wie folgt:

DMM liefert als Ergebnis eine Liste (angezeigt durch die spitzen
Klammern) von Analysen . Jede Analyse ist ein Verbund (angezeigt durch
die eckigen Klammern), der Attribut-Werte-Paare enthält. Bei obigem
Beispiel enthält die Ergebnisliste genau eine Analyse, die folgende
Informationen enthält:
- den Analysetyp, in diesem Falle parsed, d.h. die
Wortform konnte mit dem Regelmechansimus erkannt werden (es gibt hier
noch die Möglichkeiten unknown und hypothesis).
- die segmentierte Oberfläche der Wortform
- die Wortklasse (Part-of-Speech)
- die Grundform
- ein Gewicht, das bei mehreren (ambigen) Analysen zur
Disambiguierung verwendet werden kann; dieses Gewicht beruht auf
Heuristiken, die die Konkatenationsprozesse bei der Bildung der
Wortform auswerten
- das Genus dieses Substantivs sowie
- Kasus und Numerus dieses Substantivs
(Dieses Ausgabeformat ist eine reduzierte Form des internen Formats,
das reichhaltiger ist).
Ein (ziemlich großes) Bild des Ableitungsbaumes gibt es hier.
Was leistet DMM?
Die Erkennungsrate von morphologischen Analysesystemen hängt von
vielen Faktoren ab; dies sind neben das System betreffenden Faktoren
wie z.B. Lexikongröße in erster Linie textuelle Faktoren wie z.B.
die Domäne (also das Sachgebiet) des Texts.
Jede Domäne verfügt über einen domänenspezifischen Wortschatz, also
einem Anteil am Wortschatz, der ausschließlich oder gehäuft in dieser
Domäne verwendet wird. Dieser domänenspezifische Wortschatz ist je
nach Domäne verschieden groß. Domänen wie z.B. Sport haben dabei einen
relativ kleinen domänenspezifischen Wortschatz; andere wie
z.B. Medizin haben einen sehr großen Domänenspezifischen
Wortschatz.
Da das Grundformlexikon von DMM hauptsächlich allgemeinsprachlichen
Wortschatz enthält, ist die Erkennungsrate bei Domänen mit einem
großen domänenspezifischen Wortschatz geringer. Dies hängt damit
zusammen, daß Texte aus solchen Domänen aufgrund ihres großen
Wortschatzes ein ungünstigeres Token/Type-Verhältnis aufweisen. Unter
dem Token/Type-Verhältnis versteht man das Verhältnis aus
Wortforminstanzen (Tokens) und Wortformprototypen (Types). Ein Text,
der z.B. 1000 Wortformen lang ist (1000 Tokens), kann aus nur 100
verschiedenen Wortformen bestehen (100 Types); dieser Text hätte also
ein Token/Type-Verhältnis von 10, d.h. jeder Type kommt im Schnitt 10
mal vor. Je geringer dieser Wert ist, desto höher ist der lexikalische
Reichtum des Texts. Ein niedriges Token/Type-Verhältnis wirkt sich
erfahrungsgemäß negativ auf die Erkennungsrate aus.
DMM wurde verwendet, um die in der Abteilung für Computerlinguistik
entwickelten CLUE-Korpora zu annotieren. Dabei wurden für die
verschiedenen domänenspezifischen Teilkorpora folgende Erkennungsraten
ermittelt:
| Korpus |
Tokens |
unbekannt |
in % |
Types |
unbekannt |
in % |
Tokens pro Type |
| Bibel |
1.131.536 |
24.907 |
2,20 |
37.031 |
7.099 |
19,17 |
30,56 |
| Limas |
1.236.774 |
32.549 |
2,63 |
121.650 |
17.544 |
14,42 |
10,16 |
| Sport |
1.140.121 |
57.967 |
5,08 |
64.799 |
14.506 |
22,38 |
17,59 |
| EDV |
1.000.001 |
100.825 |
10,08 |
100.208 |
33.233 |
33,16 |
9,98 |
| Medizin |
1.017.646 |
139.682 |
13,72 |
104.425 |
38.004 |
36,29 |
9,74 |
| Total |
5.526.079 |
355.930 |
6,44 |
324.570 |
103.432 |
31,86 |
17,02 |
Wie man sieht, ist die Anzahl der unbekannten Wortformen gering, wenn
das Token/Type-Verhältnis hoch ist (wie bei Bibel und Sport), dafür
aber höher, wenn das Token/Type-Verhältnis niedriger ist (wie bei EDV
und Medizin). Das Limas-Korpus macht hier eine Ausnahme; der
Prozentsatz der unbekannten Wortformen ist hier niedrig, obwohl das
Token/Type-Verhältnis niedrig ist. Der Grund dafür ist, daß das
Limas-Korpus als empirische Grundlage für die Erweiterung der
Grundformlexika verwendet wird.
Was die Korrektheit der Analysen angeht, so wurden die Analysen von
1000 zufällig aus dem Limas-Korpus ausgewählten Wortformen manuell
ausgewertet. Dabei ergab sich folgendes Bild:
| (Fehler-)Klasse |
Anzahl |
% |
| korrekt analysiert |
913 |
91,3 |
| korrekte Hypothese |
3 |
0,3 |
| syntaktisch korrekt, falsche Segmentierung |
1 |
0,1 |
| ambig mit korrekter und unkorrekter Lesart |
44 |
4,4 |
| syntaktisch falsch |
5 |
0,5 |
| fehlende Ambiguität |
4 |
0,4 |
| nicht erkannt |
25 |
2,5 |
| fehlerhafte Eingabe (Rechtschreibfehler) |
5 |
0,5 |
| Total |
1000 |
100,0 |
Kann ich DMM interaktiv testen?
Ja, und zwar auf der Malaga-Seite.
Gibt es eine Dokumentation zu DMM?
Gibt es leider noch keine. DMM wird im Rahmen einer Doktorarbeit
weiterentwickelt; dabei soll auch eine umfangreiche Dokumentation zu
DMM entstehen.
Zur Verfügung steht jedoch eine Magisterarbeit, die eine ältere
Version von DMM beschreibt:
- Lorenz, Oliver (1996): Automatische Wortformenerkennung für das
Deutsche im Rahmen von Malaga. Magisterarbeit.
Friedrich-Alexander-Universität Erlangen-Nürnberg, Abteilung für Computerlinguistik.
- verfügbar als [HTML]
[PostScript]
Noch Fragen zu DMM?
Bei Fragen wenden Sie sich bitte an Oliver Lorenz.