Kursmaterialien
Hier finden sich Downloads der Kursmaterialien voriger Semester. Kursmaterialien aktueller Veranstaltungen finden Sie im Bereich Laufendes Semester.
Vorlesungen und Übungen - Computerlinguistik I: Sprachtheorie (WS00/01, WS02/03, WS04/05, WS06/07, WS08/09)
Übung zur Vorlesung Computerlinguistik I: [pdf, ps] - Computerlinguistik II: Formale Grammatik (SS01, SS03, SS05, SS07)
Übung zur Vorlesung Computerlinguistik II: [pdf, ps] - Computerlinguistik III: Morphologie und Syntax (WS01/02, WS03/04, WS05/06, WS07/08)
Übung zur Vorlesung Computerlinguistik III: [pdf, ps] - Computerlinguistik IV: Semantik und Pragmatik (SS02, SS04, SS06, SS08)
Übung zur Vorlesung Computerlinguistik IIV: [pdf, ps]
To top
To top
To top
Computerlinguistik I: Sprachtheorie Dozent: Prof. Dr. Roland Hausser Diese Vorlesung befaßt sich mit der Kommunikationsmechanik natürlicher Sprachen und ihrer Modellierung auf dem Computer. Nach einer einführenden Darstellung der praktischen Aufgaben der Computerlinguistik, wird die SLIM Sprachtheorie entwickelt, und zwar als die Konstruktion eines geeigneten Roboters (das Akronym SLIM steht für 'Surface compositional, Linear, Internal, Matching'). Dies erfordert unter anderem eine Herleitung der semantischen Grundkonzepte ('semantic primitives'), eine Theorie der Zeichen, eine strukturelle Abgrenzung von Syntax, Semantik und Pragmatik, sowie deren funktionale Integration bei der Äusserung durch den Sprecher und der Interpretation durch den Hörer. Neben heutigen Theorien werden auch die klassischen Theorien von Frege, Peirce, de Saussure, Bühler und Shannon & Weaver thematisiert. Empfohlene Literatur Teil I von: "Grundlagen der Computerlinguistik", Roland Hausser (2000), Springer Verlag, Berlin
To top
Computerlinguistik II: Formale Grammatik
Dozent: Prof. Dr. Roland Hausser
Die Vorlesung behandelt die Theorie der formalen Sprachen und ihre methodologische, komplexitätstheoretische und programmiertechnische Rolle bei der Beschreibung natürlicher Sprachen. Eingebettet in die Beschreibung der historischen Kategorial- und Phrasenstrukturgrammatik werden zunächst die formalen Grundbegriffe und linguistischen Motivationen der `generativen Grammatik' erklärt. Weitere Themen sind deklarative versus prozedurale Aspekte von Parsern, Typentransparenz, sowie die Formalismusabhängigkeit von Komplexitätsklassen. Um die empirischen und komplexitätstheoretischen Probleme traditioneller Substitutionsgrammatiken zu vermeiden, wird der streng zeitlineare Formalismus der LA-Grammatik präsentiert und an einer Vielzahl formaler Sprachen illustriert. Den Abschluss bildet ein Vergleich der PS-grammatischen und LA-grammatischen Komplexitätshierarchien. Empfohlene Literatur Teil II von: "Grundlagen der Computerlinguistik", Roland Hausser (2000), Springer Verlag, Berlin
To top
Computerlinguistik III: Morphologie und Syntax
Dozent: Prof. Dr. Roland Hausser
Diese Vorlesung analysiert die morphologische und syntaktische Oberflächenstruktur natürlicher Sprachen. Nach einer allgemeinen Darstellung der Begriffe Wort, Wortform, Morphem und Allomorph, der Prozesse Flexion, Derivation und Komposition sowie unterschiedlicher Möglichkeiten der automatischen Wortformerkennung folgt eine morphologische Analyse des Deutschen im Rahmen der LA-Grammatik. Anschließend werden die syntaktischen Prinzipien von Valenz, Kongruenz und Wortstellung erklärt und im Rahmen der LA-Grammatik am Deutschen und Englischen exemplifiziert. Insgesamt wird gezeigt, daß die streng zeitlineare Analyse von Morphologie und Syntax im Rahmen der LA-Grammatik empirische Probleme der traditionellen Konstituentenstruktur vermeidet und von niedriger mathematischer Komplexität ist. Empfohlene Literatur Teil III von: "Grundlagen der Computerlinguistik", Roland Hausser (2000), Springer Verlag, Berlin
To top
Computerlinguistik IV: Semantik und Pragmatik
Dozent: Prof. Dr. Roland Hausser
Diese Vorlesung behandelt die semantische und pragmatische Interpretation natürlicher Sprachen. Die allgemeine Darstellung dieses Bereichs beginnt mit einem Vergleich der drei verschiedenen Semantiktypen der Logiksprachen, der Programmiersprachen und der natürlichen Sprachen. Anhand von Tarskis Fundierung der logischen Semantik und seiner Rekonstruktion des Epimenides Paradoxons wird die mögliche Anwendung der logischen Semantik auf natürliche Sprachen untersucht. An den Phänomenen der intensionalen Kontexte, der propositionalen Einstellungen und der Vagheit wird gezeigt, daß den verschiedenen Semantiktypen verschiedene Ontologien zugrundeliegen, die sich entscheidend auf die empirische Analyse auswirken können. Die mögliche Komplexitätserhöhung, die die semantische Interpretation einer Sprache im Allgemeinen verursachen kann, und die Prinzipien ihrer Vermeidung wird anhand der zeitlinearen semantischen Interpretation der LA-Syntax für natürliche Sprachen gezeigt. In den beiden letzten Kapiteln wird die semantisch-pragmatische Interpretation natürlicher Sprachen als zeitlineare Navigation durch eine Datenbank konzipiert, als explizite Regeln der LA-Grammatik formal definiert und in dem System LA-Basis als Erweiterung einer klassischen Netzwerkdatenbank programmiertechnisch realisiert. Empfohlene Literatur Teil IV von: "Grundlagen der Computerlinguistik", Roland Hausser (2000), Springer Verlag, Berlin
To top
Automatische Syntaxanalyse des Deutschen mit LLAG
Dozent: Dipl.-Inf. Markus Schulze
In diesem praktisch orientierten Proseminar werden die Grundlagen der Syntxanalyse mit der Linksassoziativen Grammatik (LAG) erarbeitet. Dabei wird exemplarisch der spezielle Ansatz der LLAG (planbasierte LAG) betrachtet. Das besondere der LLAG ist das Ansetzen zweier Ebenen in der Syntax: die Ebenen der Satzglieder und der Satzstruktur. Diese beiden Ebenen werden getrennt und unabhängig voneinander modelliert. Ebenso werden verschiedene Satz- bzw. Satzgliedtypen jeweils in eigenen "Plaenen" unabhängig voneinander modelliert. Die Modellierung selber geschieht in Form der sogenannten Pläne, in denen die relevante linguistische Information in tabellarischer Form vorliegt. Im Laufe des Kurses werden zunächst die in Hausser 2002 beschriebenen einfachen deutschen Grammatiken LA-D1 bis LA-D4 mit dem planbasierten Ansatz nachvollzogen. Dann werden darüber hinausgehende Mechanismen diskutiert, mit denen beispielsweise Phraseme, Partizipialgruppen (Verb mit abhängigen Elementen innerhalb von Satzgliedern), Attachment und syntaktische Hypothesenbildung modelliert werden können. In diesem EMSV wird zur Entwicklung der LLAGs das mit MALAGA implementierte System LIPS (Language Independent Parser System) verwendet. Die notwendigen Grundlagen zum Umgang mit LIPS werden im Proseminar erarbeitet. Empfohlene Literatur Harald Weinrich (1993): Textgrammatik der deutschen Sprache, Dudenverlag, Mannheim Björn Beutel (1997): Online-Dokumentation zum Malaga-System, Abteilung für Computerlinguistik der FAU Erlangen-Nürnberg Markus Schulze (1998): "A framework for grammar acquisition", im Tagungsband der ESSLI '98, Workshop: Automated acquisition of syntax and parsing (im Erscheinen) Roland Hausser (2000): Grundlagen der Computerlinguistik, Springer Verlag, Berlin -- (insbesondere Abschn. 16-18) Markus Schulze (2002) "The Loom-LAG for syntax analysis -- Adding a language-independent level to LAG", Proceedings of PACLIC-16
To top
Einführung in die Rechnerbenutzung
Dozenten: Martin Weisser, Ph.D., Besim Kabashi, M.A.
Dieser Kurs vermittelt die nötigen Kenntnisse, um die Rechner der Computerlinguistik effizient nutzen zu können. Die behandelten Themen sind: UNIX-Befehle und ihre Benutzung in der UNIX-Shell, die grafische Benutzeroberfläche CDE, Grundlagen der Texterstellung, -verarbeitung und -gestaltung mit Hilfe des Texteditors XEmacs und des Textsatzsystems TeX/LaTeX2e, sowie die Nutzung von Internetdiensten. Der erfolgreiche Abschluß dieses Kurses ist Voraussetzung für den Besuch einer der übungen zur Vorlesung Computerlinguistik I-IV.
To top
Entwicklung eines Präprozessors zur Textaufbereitung
Dozent: Dipl.-Inf. Markus Schulze
Umfangreiche Korpora bilden die Grundlage sowohl für die Verifikation implementierter Grammatiken und Analyseverfahren als auch für die Entwicklung und das Training statistischer Modelle. Bevor eine Auswahl elektronisch vorliegender Texte in Form eines Korpus zum computerlinguistischen Arbeiten verwendet werden kann, ist es in der Regel notwendig, sie aufzubereiten. Aufgrund der Größe moderner Korpora kommt dabei nur eine vollautomatische Aufbereitung in Frage. Die wesentlichen Aspekte der Textaufbereitung sind die Bereinigung der Ausgangstexte (d.h. das Entfernen aller Formatanweisungen etc.) und das Tokenizing - also die Aufgliederung des Korpus in Wortformen bzw. Sätze. Während der erstgenannte Aspekt abhängig von der Quelle des Ausgangstextes ist, ist der zweite Aspekt sprachabhängig und nur unter Einbeziehung linguistischen Wissens zufriedenstellend zu bearbeiten. Im Rahmen dieses Proseminars werden sowohl die prinzipiellen Problematiken als auch ihre praktische Umsetzung in Form eines mehrstufigen Präprozessors erarbeitet.
To top
Java für Computerlinguisten
Dozent: Dipl.-Inf. Markus Schulze
Die Mitte der Neunziger Jahre eingeführte objektorientierte Programmiersprache Java hat sich in vielen Bereichen als Alternative zu andere bekannten Sprachen wie beispielsweise C/C++ etabliert. Vor allem im Bereich des World Wide Web gewinnt Java immer mehr an Bedeutung. Im Rahmen einer Einführung in die maschinelle Sprachverarbeitung sollen Kernkonzepte, Einsatzmöglichkeiten und Grenzen dieser Programmiersprache ausgelotet werden. Voraussetzung für den optimalen Einsatz von Java ist ein fundiertes Grundwissen über mögliche Programmierparadigmen sowie Kernkonzepte der Objektorientierung. Dieses Wissen wird in den ersten Sitzungen vermittelt. Im weiteren Kursverlauf werden die Sprache selbst sowie relevante Teile der Java Klassenbibliothek vorgestellt. Im Vordergrund steht hierbei die Entwicklung kleinerer Tools zur Lösung computerlinguistischer Fragestellungen.
To top
Einführung in die Korpuslinguistik
Dozent: Dipl.-Inf. Markus Schulze
Die Verbreitung der modernen Korpuslinguistik ist direkt an den technischen Fortschritt gebunden. Ohne leistungsstarke Computer war sie zwar im Prinzip möglich (siehe Kädings 11-Mio-Wortformen-Korpus von 1897), aber letzlich nur mit immensen Ressourcen durchführbar. Auch die Maßstäbe der Korpuslinguistik haben sich mit dem technischen Fortschritt geändert. Die ersten elektronischen Korpora aus den siebziger Jahren werden in punkto Größe von heutigen Korpora um das (mehr als) hundertfache übertroffen. Seit den 90er Jahren entwickelt sich die Korpuslinguistik zu einer eigenen Disziplin, die die Empirie in das Zentrum der linguistischen Untersuchungen stellt und damit die Introspektion und zum Teil auch den Rationalismus der theoretischen Linguistik ersetzt. Elektronische Korpora bilden die Grundlage der Korpuslinguistik. Grob definiert sind Korpora (große) Sammlungen von natürlichem Sprachmaterial, also von authentischen Texten die tatsächlich in der vorliegenden Form geäußert wurden und keiner linguistischen oder anders gearteten "Korrektur" unterzogen wurden. Es handelt sich gewissermaßen um "Feldbeobachtungen der Sprache". Korpora werden heute sowohl in der Wissenschaft als auch in der Wirtschaft beispielsweise für die folgenden Aufgaben eingesetzt: Allgemein: Untersuchung sprachlichen Verhaltens unter verschiedenen Gesichtspunkten Erstellung von Lexika: Frequenzuntersuchung des Wortschatz, realistische Beispiele, Belegstellen Erstellung von Grammatiken: Untersuchung von Wörtern im grammatischen Kontext, Frequenzuntersuchungen zu syntaktischen Phänomenen und Materialquelle für den Sprachunterricht Dieser Kurs dient der Einarbeitung in die theoretischen Grundlagen Methoden der Korpuslinguistik und wird auch einen kurzen Einblick in die Geschichte der Korpuslinguistik geben.
To top
Linguistisch unterstützte Volltextsuche
Dozent: Michael Piotrowski, M.A.
Suchmaschinen sind häufig der einzige Zugang zu grossen Textmengen. Linguistische Methoden können dabei den Zugang erleichtern und die Suchergebnisse verbessern. In diesem Seminar wollen wir uns die allgemeinen Grundlagen des Information Retrieval ansehen, überlegen, welche linguistische Verfahren hierbei angewendet werden können, und schliesslich eine prototypische Anwendung für ein Mailinglisten-Archiv entwerfen und (sofern Interesse besteht) implementieren.
To top
Ruby für Computerlinguisten
Dozent: Michael Piotrowski, M.A.
Dieser Kurs ist eine Einführung in die Programmierung mit Ruby. Ruby ist eine neue objektorientierte Programmiersprache, bei deren Entwicklung besonderer Wert auf Konsistenz und Klarheit gelegt wurde. Für Computerlinguisten ist sicher besonders interessant, daß Ruby leistungsfähige Funktionen zur Manipulation von Texten bereitstellt. Darüberhinaus is Ruby portabel (es läuft u. a. auf UNIX, Linux, Mac OS 9 und X, Windows) und frei verfügbar. Nach einer allgemeinen Einführung ist geplant, auch die Kombination von Ruby mit Malaga (der an der CLUE entwickelten Programmiersprache für Grammatiken) zu behandeln. Empfohlene Literatur Thomas, David und Andrew Hunt. Programming Ruby: The Pragmatic Programmer's Guide. Addison-Wesley, Boston 2001.
To top
Syntaxentwicklung mit MALAGA
Dozent: Dipl.-Inf. Markus Schulze
In diesem praktisch orientierten Einführungskurs werden die Grundlagen der Entwicklung linksassoziativer Syntaxgrammatiken erarbeitet. Als Einstieg werden dazu zunächst Grammatiken für formale Sprachen entwickelt. Später werden dann syntaktische Phänomene diskutiert und in Form von MALAGA-Grammatiken modelliert. Abschließend werden verschieden Strategien zur Entwicklung von LAGs vorgestellt und diskutiert. Wenn allgemeines Interesse daran besteht, kann dieser Kurs im Sommersemester 2001 als Fortgeschrittenenkurs weitergeführt werden. Empfohlene Literatur Roland Hausser (2000): Grundlagen der Computerlinguistik, Springer Verlag, Berlin Roland Hausser (1999): Foundations of Computational Linguistics, Springer Verlag, Berlin Markus Schulze (1998): Morphologie, Syntax und Semantik im Rahmen der linksassoziativen Grammatik, in: Christian Wolff (Hrg.), Tagungsband der GLDV-Jahrestagung 1997 Oliver Lorenz (1997): Automatische Wortformerkennung für das Deutsche im Rahmen von Malaga, Magisterarbeit an der Abteilung für Computerlinguistik der FAU Erlangen-Nürnberg Björn Beutel (1997): Online-Dokumentation zum Malaga-System, Abteilung für Computerlinguistik der FAU Erlangen-Nürnberg Roland Hausser (1989): Computation of Language, Springer Verlag, Berlin
To top
Werkzeuge und Arbeitstechniken für Computerlinguisten
Dozent: Dipl.-Inf. Markus Schulze
Diese Veranstaltung widmet sich einer Einführung in grundlegende Arbeitstechniken für Computerlinguisten. Dabei werden exemplarisch einige einfache Werkzeuge für Problemstellungen erarbeitet und angewendet, die in größeren computerlinguistischen Projekten immer wieder auftauchen.
To top
Computerlinguistische Programmierprojekte
Dozent: Prof. Dr. Roland Hausser; Dipl.-Inf. Markus Schulze, Thomas Künneth, M.A.
In diesem Hauptseminar sollen praktische Erfahrungen bei der Programmierung computerlinguistischer Projekte vermittelt werden. Die Studierenden entwickeln dabei einzeln oder in Gruppen Softwareanwendungen aus ausgewählten Bereichen der Computerlinguistik und Sprachverarbeitungstechnologie. Das Hauptaugenmerk soll hierbei auf dem Erwerb von Kenntnissen liegen, die zur Konzeption und Implementation von größeren Softwareprojekten befähigen.
To top
Methoden der Inferenz
Dozenten: Prof. Dr. Christian Thiel; Prof. Dr. Roland Hausser
Inferenzen sind Verfahren zur Ableitung von neuem Wissen aus vorhandenem Wissen. Dabei sind folgende Ansätze zu unterscheiden: 1. Der logische Ansatz, hier repräsentiert durch die "Erlanger Schule" 2. Verfahren der künstlichen Intelligenz, z.B. McCarthys Circumscription 3. Das linksassoziative Verfahren. Diese sollen in dem Seminar vorgestellt und verglichen werden. Zum Erwerb eines Hauptseminarscheins sind der mündliche Vortrag eines Referats und dessen schriftliche Ausarbeitung unter Berücksichtigung der Diskussion erforderlich.
To top
Syntactic Structures of Sentences from Large Corpora
Dozenten: Prof. Jacques Vergne, Prof. Dr. Roland Hausser
The papers relevant to this seminar are available under: /projects/JacquesVergne_WS0304/
To top
Wortformsynthese im Rahmen der Sprachproduktion
Dozent: Prof. Dr. Roland Hausser
In dieser Veranstaltung bearbeiten die Teilnehmer selbständig kleinere Programmierprojekte. Im Plenum wird über den Fortgang der Projekte vorgetragen und diskutiert.
To top
|