Logo der Computerlinguistik


 

Diese Webseite ist veraltet. Neue Adresse: http://www.linguistik.uni-erlangen.de

Kursmaterialien

Hier finden sich Downloads der Kursmaterialien voriger Semester. Kursmaterialien aktueller Veranstaltungen finden Sie im Bereich Laufendes Semester.



Vorlesungen und Übungen

To top

Kurse und Proseminare

To top

Hauptseminare

To top



Ausführliche Information

Computerlinguistik I: Sprachtheorie

Dozent: Prof. Dr. Roland Hausser
Diese Vorlesung befaßt sich mit der Kommunikationsmechanik natürlicher Sprachen und ihrer Modellierung auf dem Computer. Nach einer einführenden Darstellung der praktischen Aufgaben der Computerlinguistik, wird die SLIM Sprachtheorie entwickelt, und zwar als die Konstruktion eines geeigneten Roboters (das Akronym SLIM steht für 'Surface compositional, Linear, Internal, Matching'). Dies erfordert unter anderem eine Herleitung der semantischen Grundkonzepte ('semantic primitives'), eine Theorie der Zeichen, eine strukturelle Abgrenzung von Syntax, Semantik und Pragmatik, sowie deren funktionale Integration bei der Äusserung durch den Sprecher und der Interpretation durch den Hörer. Neben heutigen Theorien werden auch die klassischen Theorien von Frege, Peirce, de Saussure, Bühler und Shannon & Weaver thematisiert.
Empfohlene Literatur
Teil I von: "Grundlagen der Computerlinguistik", Roland Hausser (2000), Springer Verlag, Berlin

To top

Computerlinguistik II: Formale Grammatik

Dozent: Prof. Dr. Roland Hausser

Die Vorlesung behandelt die Theorie der formalen Sprachen und ihre methodologische, komplexitätstheoretische und programmiertechnische Rolle bei der Beschreibung natürlicher Sprachen. Eingebettet in die Beschreibung der historischen Kategorial- und Phrasenstrukturgrammatik werden zunächst die formalen Grundbegriffe und linguistischen Motivationen der `generativen Grammatik' erklärt. Weitere Themen sind deklarative versus prozedurale Aspekte von Parsern, Typentransparenz, sowie die Formalismusabhängigkeit von Komplexitätsklassen. Um die empirischen und komplexitätstheoretischen Probleme traditioneller Substitutionsgrammatiken zu vermeiden, wird der streng zeitlineare Formalismus der LA-Grammatik präsentiert und an einer Vielzahl formaler Sprachen illustriert. Den Abschluss bildet ein Vergleich der PS-grammatischen und LA-grammatischen Komplexitätshierarchien.
Empfohlene Literatur
Teil II von: "Grundlagen der Computerlinguistik", Roland Hausser (2000), Springer Verlag, Berlin

To top

Computerlinguistik III: Morphologie und Syntax

Dozent: Prof. Dr. Roland Hausser

Diese Vorlesung analysiert die morphologische und syntaktische Oberflächenstruktur natürlicher Sprachen. Nach einer allgemeinen Darstellung der Begriffe Wort, Wortform, Morphem und Allomorph, der Prozesse Flexion, Derivation und Komposition sowie unterschiedlicher Möglichkeiten der automatischen Wortformerkennung folgt eine morphologische Analyse des Deutschen im Rahmen der LA-Grammatik. Anschließend werden die syntaktischen Prinzipien von Valenz, Kongruenz und Wortstellung erklärt und im Rahmen der LA-Grammatik am Deutschen und Englischen exemplifiziert. Insgesamt wird gezeigt, daß die streng zeitlineare Analyse von Morphologie und Syntax im Rahmen der LA-Grammatik empirische Probleme der traditionellen Konstituentenstruktur vermeidet und von niedriger mathematischer Komplexität ist.
Empfohlene Literatur
Teil III von: "Grundlagen der Computerlinguistik", Roland Hausser (2000), Springer Verlag, Berlin

To top

Computerlinguistik IV: Semantik und Pragmatik

Dozent: Prof. Dr. Roland Hausser

Diese Vorlesung behandelt die semantische und pragmatische Interpretation natürlicher Sprachen. Die allgemeine Darstellung dieses Bereichs beginnt mit einem Vergleich der drei verschiedenen Semantiktypen der Logiksprachen, der Programmiersprachen und der natürlichen Sprachen. Anhand von Tarskis Fundierung der logischen Semantik und seiner Rekonstruktion des Epimenides Paradoxons wird die mögliche Anwendung der logischen Semantik auf natürliche Sprachen untersucht. An den Phänomenen der intensionalen Kontexte, der propositionalen Einstellungen und der Vagheit wird gezeigt, daß den verschiedenen Semantiktypen verschiedene Ontologien zugrundeliegen, die sich entscheidend auf die empirische Analyse auswirken können. Die mögliche Komplexitätserhöhung, die die semantische Interpretation einer Sprache im Allgemeinen verursachen kann, und die Prinzipien ihrer Vermeidung wird anhand der zeitlinearen semantischen Interpretation der LA-Syntax für natürliche Sprachen gezeigt. In den beiden letzten Kapiteln wird die semantisch-pragmatische Interpretation natürlicher Sprachen als zeitlineare Navigation durch eine Datenbank konzipiert, als explizite Regeln der LA-Grammatik formal definiert und in dem System LA-Basis als Erweiterung einer klassischen Netzwerkdatenbank programmiertechnisch realisiert.
Empfohlene Literatur
Teil IV von: "Grundlagen der Computerlinguistik", Roland Hausser (2000), Springer Verlag, Berlin

To top

Automatische Syntaxanalyse des Deutschen mit LLAG

Dozent: Dipl.-Inf. Markus Schulze

In diesem praktisch orientierten Proseminar werden die Grundlagen der Syntxanalyse mit der Linksassoziativen Grammatik (LAG) erarbeitet. Dabei wird exemplarisch der spezielle Ansatz der LLAG (planbasierte LAG) betrachtet. Das besondere der LLAG ist das Ansetzen zweier Ebenen in der Syntax: die Ebenen der Satzglieder und der Satzstruktur. Diese beiden Ebenen werden getrennt und unabhängig voneinander modelliert. Ebenso werden verschiedene Satz- bzw. Satzgliedtypen jeweils in eigenen "Plaenen" unabhängig voneinander modelliert. Die Modellierung selber geschieht in Form der sogenannten Pläne, in denen die relevante linguistische Information in tabellarischer Form vorliegt. Im Laufe des Kurses werden zunächst die in Hausser 2002 beschriebenen einfachen deutschen Grammatiken LA-D1 bis LA-D4 mit dem planbasierten Ansatz nachvollzogen. Dann werden darüber hinausgehende Mechanismen diskutiert, mit denen beispielsweise Phraseme, Partizipialgruppen (Verb mit abhängigen Elementen innerhalb von Satzgliedern), Attachment und syntaktische Hypothesenbildung modelliert werden können. In diesem EMSV wird zur Entwicklung der LLAGs das mit MALAGA implementierte System LIPS (Language Independent Parser System) verwendet. Die notwendigen Grundlagen zum Umgang mit LIPS werden im Proseminar erarbeitet.
Empfohlene Literatur
Harald Weinrich (1993): Textgrammatik der deutschen Sprache, Dudenverlag, Mannheim
Björn Beutel (1997): Online-Dokumentation zum Malaga-System, Abteilung für Computerlinguistik der FAU Erlangen-Nürnberg
Markus Schulze (1998): "A framework for grammar acquisition", im Tagungsband der ESSLI '98, Workshop: Automated acquisition of syntax and parsing (im Erscheinen)
Roland Hausser (2000): Grundlagen der Computerlinguistik, Springer Verlag, Berlin -- (insbesondere Abschn. 16-18)
Markus Schulze (2002) "The Loom-LAG for syntax analysis -- Adding a language-independent level to LAG", Proceedings of PACLIC-16

To top

Einführung in die Rechnerbenutzung

Dozenten: Martin Weisser, Ph.D., Besim Kabashi, M.A.

Dieser Kurs vermittelt die nötigen Kenntnisse, um die Rechner der Computerlinguistik effizient nutzen zu können.
Die behandelten Themen sind:
UNIX-Befehle und ihre Benutzung in der UNIX-Shell, die grafische Benutzeroberfläche CDE, Grundlagen der Texterstellung, -verarbeitung und -gestaltung mit Hilfe des Texteditors XEmacs und des Textsatzsystems TeX/LaTeX2e, sowie die Nutzung von Internetdiensten. Der erfolgreiche Abschluß dieses Kurses ist Voraussetzung für den Besuch einer der übungen zur Vorlesung Computerlinguistik I-IV.

To top

Entwicklung eines Präprozessors zur Textaufbereitung

Dozent: Dipl.-Inf. Markus Schulze

Umfangreiche Korpora bilden die Grundlage sowohl für die Verifikation implementierter Grammatiken und Analyseverfahren als auch für die Entwicklung und das Training statistischer Modelle. Bevor eine Auswahl elektronisch vorliegender Texte in Form eines Korpus zum computerlinguistischen Arbeiten verwendet werden kann, ist es in der Regel notwendig, sie aufzubereiten. Aufgrund der Größe moderner Korpora kommt dabei nur eine vollautomatische Aufbereitung in Frage. Die wesentlichen Aspekte der Textaufbereitung sind die Bereinigung der Ausgangstexte (d.h. das Entfernen aller Formatanweisungen etc.) und das Tokenizing - also die Aufgliederung des Korpus in Wortformen bzw. Sätze. Während der erstgenannte Aspekt abhängig von der Quelle des Ausgangstextes ist, ist der zweite Aspekt sprachabhängig und nur unter Einbeziehung linguistischen Wissens zufriedenstellend zu bearbeiten. Im Rahmen dieses Proseminars werden sowohl die prinzipiellen Problematiken als auch ihre praktische Umsetzung in Form eines mehrstufigen Präprozessors erarbeitet.

To top

Java für Computerlinguisten

Dozent: Dipl.-Inf. Markus Schulze

Die Mitte der Neunziger Jahre eingeführte objektorientierte Programmiersprache Java hat sich in vielen Bereichen als Alternative zu andere bekannten Sprachen wie beispielsweise C/C++ etabliert. Vor allem im Bereich des World Wide Web gewinnt Java immer mehr an Bedeutung. Im Rahmen einer Einführung in die maschinelle Sprachverarbeitung sollen Kernkonzepte, Einsatzmöglichkeiten und Grenzen dieser Programmiersprache ausgelotet werden. Voraussetzung für den optimalen Einsatz von Java ist ein fundiertes Grundwissen über mögliche Programmierparadigmen sowie Kernkonzepte der Objektorientierung. Dieses Wissen wird in den ersten Sitzungen vermittelt. Im weiteren Kursverlauf werden die Sprache selbst sowie relevante Teile der Java Klassenbibliothek vorgestellt. Im Vordergrund steht hierbei die Entwicklung kleinerer Tools zur Lösung computerlinguistischer Fragestellungen.

To top

Einführung in die Korpuslinguistik

Dozent: Dipl.-Inf. Markus Schulze

Die Verbreitung der modernen Korpuslinguistik ist direkt an den technischen Fortschritt gebunden. Ohne leistungsstarke Computer war sie zwar im Prinzip möglich (siehe Kädings 11-Mio-Wortformen-Korpus von 1897), aber letzlich nur mit immensen Ressourcen durchführbar. Auch die Maßstäbe der Korpuslinguistik haben sich mit dem technischen Fortschritt geändert. Die ersten elektronischen Korpora aus den siebziger Jahren werden in punkto Größe von heutigen Korpora um das (mehr als) hundertfache übertroffen. Seit den 90er Jahren entwickelt sich die Korpuslinguistik zu einer eigenen Disziplin, die die Empirie in das Zentrum der linguistischen Untersuchungen stellt und damit die Introspektion und zum Teil auch den Rationalismus der theoretischen Linguistik ersetzt. Elektronische Korpora bilden die Grundlage der Korpuslinguistik. Grob definiert sind Korpora (große) Sammlungen von natürlichem Sprachmaterial, also von authentischen Texten die tatsächlich in der vorliegenden Form geäußert wurden und keiner linguistischen oder anders gearteten "Korrektur" unterzogen wurden. Es handelt sich gewissermaßen um "Feldbeobachtungen der Sprache".
Korpora werden heute sowohl in der Wissenschaft als auch in der Wirtschaft beispielsweise für die folgenden Aufgaben eingesetzt:
Allgemein:
Untersuchung sprachlichen Verhaltens unter verschiedenen Gesichtspunkten Erstellung von Lexika:
Frequenzuntersuchung des Wortschatz, realistische Beispiele, Belegstellen Erstellung von Grammatiken:
Untersuchung von Wörtern im grammatischen Kontext, Frequenzuntersuchungen zu syntaktischen Phänomenen und Materialquelle für den Sprachunterricht
Dieser Kurs dient der Einarbeitung in die theoretischen Grundlagen Methoden der Korpuslinguistik und wird auch einen kurzen Einblick in die Geschichte der Korpuslinguistik geben.

To top

Linguistisch unterstützte Volltextsuche

Dozent: Michael Piotrowski, M.A.

Suchmaschinen sind häufig der einzige Zugang zu grossen Textmengen. Linguistische Methoden können dabei den Zugang erleichtern und die Suchergebnisse verbessern. In diesem Seminar wollen wir uns die allgemeinen Grundlagen des Information Retrieval ansehen, überlegen, welche linguistische Verfahren hierbei angewendet werden können, und schliesslich eine prototypische Anwendung für ein Mailinglisten-Archiv entwerfen und (sofern Interesse besteht) implementieren.

To top

Ruby für Computerlinguisten

Dozent: Michael Piotrowski, M.A.

Dieser Kurs ist eine Einführung in die Programmierung mit Ruby. Ruby ist eine neue objektorientierte Programmiersprache, bei deren Entwicklung besonderer Wert auf Konsistenz und Klarheit gelegt wurde. Für Computerlinguisten ist sicher besonders interessant, daß Ruby leistungsfähige Funktionen zur Manipulation von Texten bereitstellt. Darüberhinaus is Ruby portabel (es läuft u. a. auf UNIX, Linux, Mac OS 9 und X, Windows) und frei verfügbar. Nach einer allgemeinen Einführung ist geplant, auch die Kombination von Ruby mit Malaga (der an der CLUE entwickelten Programmiersprache für Grammatiken) zu behandeln.
Empfohlene Literatur
Thomas, David und Andrew Hunt. Programming Ruby: The Pragmatic Programmer's Guide. Addison-Wesley, Boston 2001.

To top

Syntaxentwicklung mit MALAGA

Dozent: Dipl.-Inf. Markus Schulze

In diesem praktisch orientierten Einführungskurs werden die Grundlagen der Entwicklung linksassoziativer Syntaxgrammatiken erarbeitet. Als Einstieg werden dazu zunächst Grammatiken für formale Sprachen entwickelt. Später werden dann syntaktische Phänomene diskutiert und in Form von MALAGA-Grammatiken modelliert. Abschließend werden verschieden Strategien zur Entwicklung von LAGs vorgestellt und diskutiert. Wenn allgemeines Interesse daran besteht, kann dieser Kurs im Sommersemester 2001 als Fortgeschrittenenkurs weitergeführt werden.
Empfohlene Literatur
Roland Hausser (2000): Grundlagen der Computerlinguistik, Springer Verlag, Berlin
Roland Hausser (1999): Foundations of Computational Linguistics, Springer Verlag, Berlin
Markus Schulze (1998): Morphologie, Syntax und Semantik im Rahmen der linksassoziativen Grammatik, in: Christian Wolff (Hrg.), Tagungsband der GLDV-Jahrestagung 1997
Oliver Lorenz (1997): Automatische Wortformerkennung für das Deutsche im Rahmen von Malaga, Magisterarbeit an der Abteilung für Computerlinguistik der FAU Erlangen-Nürnberg
Björn Beutel (1997): Online-Dokumentation zum Malaga-System, Abteilung für Computerlinguistik der FAU Erlangen-Nürnberg
Roland Hausser (1989): Computation of Language, Springer Verlag, Berlin

To top

Werkzeuge und Arbeitstechniken für Computerlinguisten

Dozent: Dipl.-Inf. Markus Schulze

Diese Veranstaltung widmet sich einer Einführung in grundlegende Arbeitstechniken für Computerlinguisten. Dabei werden exemplarisch einige einfache Werkzeuge für Problemstellungen erarbeitet und angewendet, die in größeren computerlinguistischen Projekten immer wieder auftauchen.

To top

Computerlinguistische Programmierprojekte

Dozent: Prof. Dr. Roland Hausser; Dipl.-Inf. Markus Schulze, Thomas Künneth, M.A.

In diesem Hauptseminar sollen praktische Erfahrungen bei der Programmierung computerlinguistischer Projekte vermittelt werden. Die Studierenden entwickeln dabei einzeln oder in Gruppen Softwareanwendungen aus ausgewählten Bereichen der Computerlinguistik und Sprachverarbeitungstechnologie. Das Hauptaugenmerk soll hierbei auf dem Erwerb von Kenntnissen liegen, die zur Konzeption und Implementation von größeren Softwareprojekten befähigen.

To top

Methoden der Inferenz

Dozenten: Prof. Dr. Christian Thiel; Prof. Dr. Roland Hausser

Inferenzen sind Verfahren zur Ableitung von neuem Wissen aus vorhandenem Wissen. Dabei sind folgende Ansätze zu unterscheiden:
1. Der logische Ansatz, hier repräsentiert durch die "Erlanger Schule"
2. Verfahren der künstlichen Intelligenz, z.B. McCarthys Circumscription
3. Das linksassoziative Verfahren.
Diese sollen in dem Seminar vorgestellt und verglichen werden. Zum Erwerb eines Hauptseminarscheins sind der mündliche Vortrag eines Referats und dessen schriftliche Ausarbeitung unter Berücksichtigung der Diskussion erforderlich.

 

To top

Syntactic Structures of Sentences from Large Corpora

Dozenten: Prof. Jacques Vergne, Prof. Dr. Roland Hausser

The papers relevant to this seminar are available under: /projects/JacquesVergne_WS0304/

To top

Wortformsynthese im Rahmen der Sprachproduktion

Dozent: Prof. Dr. Roland Hausser

In dieser Veranstaltung bearbeiten die Teilnehmer selbständig kleinere Programmierprojekte. Im Plenum wird über den Fortgang der Projekte vorgetragen und diskutiert.

To top