Auf dieser Seite finden sich Ankündigungen und weiterführende Informationen zu Vorträgen, Workshops und weiteren Veranstaltungen der Professur für Korpuslinguistik.  Die an dieser Stelle aufgeführten Veranstaltung werden zusätzlich zum regulären Stundenplan der Linguistischen Informatik angeboten und sind, soweit nicht anders vermerkt, auch der interessierten Öffentlichkeit zugänglich.

Sommersemester 2016

Überblick über Vorträge und Workshops im Sommersemester 2016
 01.06.2016 Philipp Heinrich Experimente zur Integration von semantischen Features in Dokument-Term-Matrizen bei der Vorhersage von Aktienkursen Abstract
 15.06.2016 Felix Bildhauer (IDS Mannheim), Roland Schäfer (FU Berlin) Webkorpora der zweiten und dritten Generation Abstract
 29.06.2016 Xieyidan Abuliezi, Tamara Willacker Vorstellung von studentischen Projekten und Praktika Abstract 

 06.07.2016
 ab 16:30

Allan Körner Vorstellung von studentischen Projekten und Praktika Abstract

 06.07.2016
 ab 16:30

Christian Otto M.A. Detektion neu aufkommender Themen und deren Importanz Überblick zum Promotionsvorhaben Abstract 

Experimente zur Integration von semantischen Features in Dokument-Term-Matrizen bei der Vorhersage von Aktienkursen

  • Referent: Philipp Heinrich, M.Sc.
  • Datum: Mi, 01.06.2016
  • Zeit: 16:15 – 17:45 Uhr
  • Ort: Raum 4.000, Bismarckstr. 6, 91054 Erlangen

Der Vortrag stellt neue Experimente zur Vorhersage von ökonometrisch geschätzten Aktienkursreaktionen auf sog. Adhoc-Mitteilungen, d.h. auf Börsenmitteilungen zu preissensitiven Themen (§15 WpHG), vor. Für verschiedene quantitative und qualitative Prediction Tasks werden dazu Dokument-Term-Matrizen (DTM), die auf simplen Bag-of-Words-Modellen basieren, mit einem ontologisch extrahierten semantischen Feature kombiniert. Die Experimente sind auf dreierlei Weise modularisiert: Sie erlauben deskriptive und inferentielle Aussagen über die Performance der maschinellen Lernverfahren (MLV)

  1. in den unterschiedlichen Prediction Tasks,
  2. bei variierenden Eingliederungsmethoden des semantischen Features in die DTM und
  3. für diverse Prädiktoren (Regressoren und Klassifikatoren).

Ziel der Forschung ist sowohl die Entwicklung verbesserter Task Solvers als auch die Untersuchung der Aufnahmefähigkeit der MLV bzgl. des semantischen Features, welche bestenfalls über die direkte Assoziation des semantischen Features mit der Zielvariable hinausgeht. Unter Ausnutzung stratifizierter Kreuzvalidierung wird daher für jede Aufgabe und jeden Prädiktor mittels statistischer Verfahren untersucht, ob die Integration des semantischen Features in den Bag-of-Words vorteilhaft für das MLV ist und welche Integrationsmethode die besten Ergebnisse liefert.

nach oben

Webkorpora der zweiten und dritten Generation 

  • Referenten: Felix Bildhauer (IDS Mannheim), Roland Schäfer (FU Berlin)
  • Datum: Mittwoch, 15.06.2016
  • Zeit: 16:15–17:45 Uhr
  • Ort: CIP-Pool 0.320, Bismarckstr. 12, 91054 Erlangen 

Webkorpora – also linguistisch aufbereitete Korpora aus WWW-Daten – gibt es seit über zehn Jahren. In diesem Vortrag fassen wir zunächst zusammen, was die wichtigen Entwicklungen in diesen Jahren gewesen sind. Die Zusammenfassung betrifft konzeptuelle und technologische Aspekte, Aspekte der Evaluation von Webkorpora, die Arbeit mit Webdaten in der Linguistik sowie rechtliche Aspekte. Im Mittelpunkt stehen dabei unsere eigenen COW- und COCO-Korpora (Deutsch, Englisch, Niederländisch, Spanisch, Schwedisch) im Vergleich zu anderen Webkorpora (z.B. Derik, Glowbe, SketchEngine, WaCky). Im Weiteren geben wir einen Ausblick auf zukünftige Entwicklungen. In der Korpuserstellung betrifft dies zum Beispiel: neue Datenquellen (z.B. CommonCrawl), größere Korpora (ENCOCO1507 wird über 100 Mrd. Tokens enthalten), spezielle Sampling-Verfahren (verzerrungsfreies und fokussiertes Crawling), automatische Textklassifikation. Auf der konzeptuellen/linguistischen Seite stehen Fragen nach der Korpuszusammensetzung, der Validität von Ergebnissen aus Webdaten und effiziente Möglichkeiten der Analyse und statischen Auswertung im Vordergrund. Zum Abschluss demonstrieren wir praktisch die verschiedenen Möglichkeiten, mit den COW- und den zukünftigen COCO-Webkorpora zu arbeiten.

nach oben

Vorstellung von studentischen Projekten und Bachelorarbeiten

  • Datum: Mittwoch, 29.06.2016
  • Zeit: 16:30–18:00
  • Ort: CIP-Pool 0.320, Bismarckstr. 12, 91054 Erlangen

Referenten und Themen:

  • Xieyidan Abuliezi: Praktikumsbericht EDAG Automotive Engineering GmbH
  • Tamara Willacker: Praktikumsbericht Sympalog Voice Solutions GmbH 

nach oben

 

Detektion neu aufkommender Themen und deren Importanz - Überblick zum Promotionsvorhaben

  • Referent: Christian Otto, M.A.
  • Datum: Mi, 06.07.2016
  • Zeit: 16:15 – 17:45 Uhr
  • Ort: Raum 0.320, Bismarckstr. 12, 91054 Erlangen

Täglich kommen neu Themen auf. Manche Neuigkeiten beschäftigen die Öffentlichkeit nur kurz, manche wachsen zu gewichtigen Themen aus. Es scheint, als ob manche Themen zunächst als wichtig erachtet werden, dann aber von anderen Themen überlagert werden und wieder aus dem Fokus der Öffentlichkeit verschwinden. In krisenhaften Situationen in Politik und Wirtschaft ist es nötig, möglichst frühzeitig abschätzen zu können, wie wichtig ein Thema in die öffentliche Wahrnehmung eingeht. Ziel dieser Arbeit ist die automatisierte Detektion neu aufkommender Themen und die qualitative Bewertung deren Wichtigkeit.

nach oben

 

Vorstellung von studentischen Projekten und Bachelorarbeiten

  • Referent: Allan Körner
  • Datum: Mittwoch, 06.07.2016
  • Zeit: 16:30–18:00
  • Ort: CIP-Pool 0.320, Bismarckstr. 12, 91054 Erlangen

Referenten und Themen:

  • Allan Körner: Evaluation von Word Embeddings

 

nach oben

Wintersemester 2015/2016

Soweit nicht anders genannt, finden die Vorträge von 16:15–17:45 im CIP-Pool (Bismarckstr. 12, Raum 0.320) statt.

DatumReferent/-inTitel 
Überblick über Vorträge und Workshops im Wintersemester 2015
Mi 18.11.2015 Stefan Evert Some theoretical and experimental observations on naïve discriminative learning Abstract
Do 17.12.2015 Sabine Schulte im Walde Potential and limits of distributional approaches to semantic relatedness Abstract
Fr 15.01.2016
Kochstr. 6
Friedrich Michael Dimpel, Stefan Evert, Thomas Proisl „Delta“ in der stilometrischen Autorschaftsattribution Abstract
Mi 20.01.2016 Philipp Heinrich Klassifikation von Ad-Hoc-Mitteilungen: Synergien zwischen Ontologie und maschinellen Lernverfahren Abstract
Do 21.01.2016 Tony McEnery  Diskussionsrunde zu Corpus Linguistics & Social Science  
Fr 22.01.2016
Kochstr. 6
Tony McEnery The Criminalized Poor – exploring a marginalized group in public discourse in the 17th century Abstract

 

Some theoretical and experimental observations on naïve discriminative learning

  • Referent: Prof. Dr. Stefan Evert
  • Datum: Mi, 18.11.2015
  • Zeit: 16:15 – 17:45 Uhr
  • Ort: CIP-Pool 0.320, Bismarckstr. 12, 91054 Erlangen

Naïve Discriminative Learning (NDL) is a cognitively plausible model for associative learning in human language acquisition and computational linguistics, based on the Rescorla-Wagner (R-W) equations. NDL is also appealing because the long-term behaviour of a R-W learner with stochastic input converges to the Danks equilibrium, which can be computed efficiently using matrix algebra. This talk explores the mathematical and empirical connections between individual R-W learners, the expected behaviour of a family of stochastic learners, the Danks equilibrium, the single-layer perceptron (a simple neural network) and linear least-squares regression. The talk was also presented at the QITL-6 Conference (Tübingen).

nach oben

 

Potential and limits of distributional approaches to semantic relatedness

  • Referent: PD Dr. Sabine Schulte im Walde
  • Datum: Do., 17.12.2015
  • Zeit: 16:15 – 17:45 Uhr
  • Ort: CIP-Pool 0.320, Bismarckstr. 12, 91054 Erlangen

Distributional models assume that the contexts of a linguistic unit (such as a word, a multi-word expression, a phrase, a sentence, etc.) provide information about the meaning of the linguistic unit (Harris, 1954, Firth, 1957). They have been widely applied in data-intensive lexical semantics (among other areas), and proven successful in diverse research issues, such as the representation and disambiguation of word senses; selectional preference modelling; the compositionality of compounds and phrases, or as a general framework across semantic tasks.

While it is clear that distributional knowledge does not cover all the cognitive knowledge humans possess with respect to word meaning (Marconi, 1997; Lenci, 2008), distributional models are very attractive, as the underlying parameters are accessible from even low-level annotated corpus data. We are thus interested in maximising the benefit of distributional information for lexical semantics, by exploring the meaning and the potential of comparatively simple distributional models.

In this respect, this talk will present four case studies on semantic relatedness tasks that demonstrate the potential and the limits of distributional models: (i) the availability of various German association norms in standard web and newspaper corpora; (ii) the prediction of compositionality for German noun-noun compounds and German particle verbs; (iii) the distinction between the paradigmatic relations synonymy, antonymy and hypernymy with regard to German
nouns, verbs and adjectives; and (iv) the integration and evaluation
of subcategorisation information into an SMT system.

nach oben

 

„Delta“ in der stilometrischen Autorschaftsattribution

  • Referenten: PD Dr. Friedrich Michael Dimpel, Prof. Dr. Stefan Evert, Thomas Proisl M.A.
  • Datum: Fr, 15.01.2016
  • Zeit: 12:30 – 14:00 Uhr (ab 14:00 Diskussion zum Thema)
  • Ort: Raum 00.3 PSG, Kochstr. 6a, 91054 Erlangen

Stilometrische Verfahren der Autorschaftsattribution haben eine lange Tradition in den digitalen Geisteswissenschaften: Mit der Analyse der Federalist Papers durch Mosteller und Wallace (1963) konnten schon Anfang der 1960er Jahre Erfolge verzeichnet werden. Überblicksbeiträge von Patrick Juola (2006) und Efstathios Stamatatos (2009) belegen die Vielfältigkeit der Bestrebungen, stilometrische Verfahren für die Autorschaftsattribution einzusetzen und weiterzuentwickeln. Ein jüngerer Meilenstein der stilometrischen Autorschaftsattribution ist ohne Zweifel das von John Burrows (2002) vorgeschlagene “Delta”-Maß zur Bestimmung der stilistischen Ähnlichkeit zwischen Texten. Die beeindruckend gute Performance von Delta in verschiedenen Sprachen und Gattungen sollte allerdings nicht darüber hinwegtäuschen, dass die theoretischen Hintergründe weitgehend unverstanden geblieben sind (Argamon 2008). Anders ausgedrückt: Wir wissen, dass Delta funktioniert, aber nicht, warum es funktioniert.

In drei Einzelvorträgen stellen wir den aktuellen Stand der Forschung in der stilometrischen Autorschaftsattribution mit Delta und seinen Varianten vor und demonstrieren verschiedene aktuelle Entwicklungen anhand eigener Untersuchungen. Die Vorträge zeigen, wie bei der Anwendung stilometrischer Distanzmaße auf ganz unterschiedliche Gegenstandsbereiche ähnliche methodische Fragen zu berücksichtigen sind.

Es ist geplant, im Anschluss an die Vorträge in einer Diskussionsrunde Ideen für weitere Forschungsarbeiten auszuloten.

nach oben

 

Klassifikation von Ad-Hoc-Mitteilungen: Synergien zwischen Ontologie und maschinellen Lernverfahren

  • Referent: Philipp Heinrich, M.Sc.
  • Datum: Mi, 20.01.2016
  • Zeit: 16:15 – 17:45 Uhr
  • Ort: CIP-Pool 0.320, Bismarckstr. 12, 91054 Erlangen

Aktiengesellschaften sind nach dem Wertpapierhandelsgesetz dazu verpflichtet, jegliche Informationen, die sich potentiell auf den Aktienpreis auswirken, unverzüglich über sog. Ad-Hoc-Mitteilungen der Öffentlichkeit zugänglich zu machen. Alle preissensitiven Themen sind im Emittentenleitfaden der Bundesfinanzaufsicht festgehalten. Die Reaktion des Aktienkurses auf die Ad-Hoc-Mitteilung kann mit ökonometrischen Methoden geschätzt werden, wodurch eine Datenbasis für computerlinguistische Verfahren gegeben ist.

Der Vortrag stellt die momentane Zusammenarbeit der Professur für Korpuslinguistik mit dem Lehrstuhl für Rechnungswesen und Prüfungswesen und dem Lehrstuhl für theoretische Informatik vor. Ziel der Forschung ist es, potentielle Synergien zwischen einer Ontologie, in der externes Wissen über die Wirtschaftswelt repräsentiert wird, und maschinellen Lernverfahren zu analysieren. Die vom Lehrstuhl für theoretische Informatik entwickelte Ontologie ermöglicht zur Zeit durch semantische Analyse der Ergebnisse des NLP die Erkennung von Rücktrittsmeldungen mit hohen Recall- und Precisionwerten.

Statistische Analysen zeigen, dass sowohl der speziell zur Klassifikation der Ad-Hoc-Mitteilungen entwickelte Klassifikator (ein modifizierter Naive-Bayes-Klassifikator), als auch Standard-ML-Verfahren (ein Maximum-Entropie-Klassifikator) besser auf dem Subkorpus der Rücktrittsmeldungen als auf zufälligen Subkorpora gleicher Größe und mit gleicher Klassenverteilung funktionieren. Dies legt nahe, dass ML-Verfahren von der entwickelten Ontologie profitieren können, da sie es mit einem spezielleren, d. h. eingeschränkten und damit konsistenteren Vokabular zu tun haben.

nach oben

 

The Criminalized Poor – exploring a marginalized group in public discourse in the 17th century

  • Referent: Prof. Tony McEnery (Lancaster U)
  • Datum: Fr, 22.01.2016
  • Zeit: 12:30 – 14:00 Uhr
  • Ort: Raum 00.3 PSG, Kochstr. 6a, 91054 Erlangen

Who were the criminalized poor in the 17th century? What did they do? Where did they live? Who did they associate with? What was associated with them? Did the way they were talked about change over time? In this talk I will explore these questions by looking at modern lexicographical resources, 17th century lexicographical resources and the EEBO corpus. In doing so I will cast light on these questions while also exploring the potential and shortcomings of the resources that are used in the study. In particular I will focus upon how the corpus can help us to come to a fuller view of these questions than dictionary resources currently permit. I will also reflect upon and explore ways of dealing with the volatility of collocates over time.

nach oben

 

Sommersemester 2015

DatumReferent/-inTitel 
Überblick über Vorträge und Workshops im Sommersemester 2015
13.05.2015 Stefan Evert Ziggurat – A data model for CWB4 Abstract
20.05.2015 Gabriella Lapesa Large Scale Evaluation of Distributional Semantic Models: Parameters, Interactions, and Model Selection (NAACL dry-run) Abstarct

 

 

Wintersemester 2014/2015

DatumReferent/-inTitel 
Überblick über Vorträge und Workshops im Wintersemester 2014
03.12.2014 Jochen Leidner Korpusbasierte und datengetriebene Forschung und Entwicklung bei Thomson Reuters Abstract
17.12.2014 Martin Hacker Erkennung und Behandlung von Spracherkennungsfehlern in einem Dialogsystem zur Fußgängerassistenz Abstract
07.01.2015 Sabine Bartsch Non-canonical constructions: Annotating sets of constructions Abstract 
14.01.2015 Christian Otto Computerlinguistische Methoden zur Untersuchung und Detektion von Neologismen Abstract
21.01.2015 Stefan Reihl Social Media Analysis Abstract
28.01.2015 Martin Scholz Erkennung und Klassifikation von Ereignissen und deren Argumenten in dokumentarischen Texten aus dem Kulturerbe

Abstract

 

Korpusbasierte und datengetriebene Forschung und Entwicklung bei Thomson Reuters  / Corpus-Based and Data-Driven Research & Develpment at Thomson Reuters

  • Referent: Dr. Jochen L. Leidner, M.A. M.Phil.
  • Datum: 3. 12. 2014
  • Zeit: 16:15 – 17:45 Uhr
  • Ort: CIP-Pool 0.320, Bismarckstr. 12, 91054 Erlangen

Zusammenfassung

Thomson Reuters ist ein Informationskonzern, der die professionellen Informationsbedürfnisse von Kunden in den Bereichen Finanz & Risiko, Nachrichten, Recht, geistiges Eigentum & Wissenschaft sowie Steuer & Buchhaltung bedient. In diesem Vortrag gebe ich zunächst eine Übersicht über das Unternehmen und seine zentrale Forschungsabteilung (mit über 40 Forschern in den Bereichen Suchmaschinentechnologie, Sprachverarbeitung und angewandtem maschinellen Lernen). Anschließend beschreibe ich einige Forschungsprojekte, die korpusbasierte Methoden (im Falle von textuellen Daten) bzw. datengetriebene Methoden (generell) nutzen, um Komponenten zu bauen, die den Entscheidungsfindungsprozess der professionellen Kunden von Thomson Reuters zu verbessern in der Lage sind.

Abstract

Thomson Reuters is an information company that caters to the professional information needs of customers in the financial & risk, news, legal, intellectual property & science, and tax & accounting verticals. In this talk, I give an overview over the company, and its R&D group (over 40 research staff in the areas of search engine technology, natural language processing and applied machine learning). I then proceed to describe a couple of research projects that use corpus-based (in the case of textual input) or data-driven (in the more general case of data beyond text) to build capabilities that can inform better the decision-making abilities of the professionals that are Thomson Reuters customers.

 Nach oben

Erkennung und Behandlung von Spracherkennungsfehlern in einem Dialogsystem zur Fußgängerassistenz

  • Referent: Martin Hacker
  • Datum: 17. Dezember 2014
  • Zeit: 16:15–17:45
  • Ort: Seminarraum 4.000, Bismarckstr. 6, 91054 Erlangen

Abstract

Sprachdialogsysteme stoßen trotz technologischer Fortschritte auf Vorbehalte bei Benutzern. Häufige Kritikpunkte sind unnatürliche Dialogführung und unvorhersehbares Verhalten. Eine der zugrundeliegenden Ursachen sind Fehler bei der automatischen Spracherkennung. Im Gegensatz zu Menschen sind Dialogsysteme oft nicht in der Lage, Wahrnehmungsfehler zu erkennen und potentielle Missverständnisse im Dialog mit dem Nutzer auszuräumen.

In diesem Vortrag wird zunächst der Aufbau eines Fehlerkorpus für ein Sprachassistenzsystem für Fußgänger und öffentlichen Nahverkehr dokumentiert. Danach werden Untersuchungen beschrieben, wie menschliche Probanden mit den Erkennungsfehlern umgehen. Als Konsequenz aus den Ergebnissen dieser Studie wurde ein Verfahren entwickelt, wie sich phonologisches Wissen in ein maschinelles Auswahlverfahren für Hypothesen integrieren lässt.

 Nach oben

Non-canonical constructions: Annotating sets of constructions

  • Referent: Sabine Bartsch
  • Datum: 7. Januar 2015
  • Zeit: 16:15–17:45
  • Ort: Seminarraum 4.000, Bismarckstr. 6, 91054 Erlangen

 Nach oben

Computerlinguistische Methoden zur Untersuchung und Detektion von Neologismen

  • Referent: Christian Otto
  • Datum: 14. Januar 2015
  • Zeit: 16:15–17:45
  • Ort: Seminarraum 4.000, Bismarckstr. 6, 91054 Erlangen

 Nach oben

Social Media Analysis

  • Referent: Stefan Reihl
  • Datum: 21. Januar 2015
  • Zeit: 16:15–17:45
  • Ort: Seminarraum 4.000, Bismarckstr. 6, 91054 Erlangen

Abstract

Begriffe wie Big Data und Data Mining haben in den letzten Jahren Einzug in die Welt des Marketings gehalten. Während auf diesem Feld die Forschung permanent vorangetrieben wird, sieht der Alltag der Datenanalyse zu Vermarktungszwecken völlig anders aus und wird von viel Handarbeit begleitet. Dieser Vortrag gibt einen kompakten Überblick über den aktuellen Stand der Auswertung von nutzergenerierten Daten aus Facebook, Twitter & Co. und wie aus diesen Daten wichtige Erkenntnisse für Unternehmen gewonnen werden können.

 Nach oben

Erkennung und Klassifikation von Ereignissen und deren Argumenten in dokumentarischen Texten aus dem KulturerbeSocial Media Analysis

  • Referent: Martin Scholz
  • Datum: 28. Januar 2015
  • Zeit: 16:15–17:45
  • Ort: Seminarraum 4.000, Bismarckstr. 6, 91054 Erlangen

Abstract

Bei der Dokumentation von Kulturerbe spielt Freitext eine wichtige Rolle.Das darin enthaltene Wissen kann für Maschinen teilweise nutzbar gemacht werden, indem der Text mit NLP-Methoden analysiert, ausgezeichnet und die darin enthaltene Information extrahiert wird. Ein wichtiger Teilaspekt ist dabei das Erkennen und Klassifizieren von Ereignissen und deren Argumenten, wie etwa Handlungen, Personen und Orten. Der Vortrag behandelt den in der Virtuellen Forschungsumgebung WissKI verfolgten Ansatz.

 Nach oben



 Sommersemester 2014

DatumReferent/-inTitel 
Überblick über Vorträge und Workshops im Sommersemester 2014
Letzte Revision: 29. Juni 2014
21.05.2014 Gabriella Lapesa Large Scale Evaluation of Distributional Semantic Medels Link
04.06.2014 Maria Lehl Stairway to Learner’s Heaven Link
18.06.2014 Vanessa Stadlbauer Natural interactions between man and machine Link
25.06.2014 Michael Piotrowski Natural Language Processing for Historical Texts Link
02.07.2014 Susanne Streil Testen von Software  
09.07.2014 Besim Kabashi Automatische Verarbeitung der albanischen Morphologie  

Nach oben

Large Scale Evaluation of Distributional Semantic Models

  • Referentin: Gabriella Lapesa
  • Datum: 21. Mai 2014
  • Zeit: 10:15 – ca. 11:45 Uhr
  • Ort: Seminarraum 3.20, Bismarckstr. 12, 91045 Erlangen

Abstract

In my talk, I will present the results of a large scale evaluation study of Distributional Semantic Models in a number of tasks that are standard in DSM evaluation (TOEFL multiple-choice synonymy test, prediction of similarity ratings, noun clustering). A novel methodology employed for the evaluation of the results will also be described, which relies on linear modeling with DSM parameters as performance predictors. Our methodology is robust to overfitting and sensitive to parameter interactions, and it overcomes the limitations of previous evaluation studies."

 Nach oben


Stairway to Learner’s Heaven – Automatische Generierung von Sprachübungsaufgaben aus Songtexten

  • Referentin: Maria Lehl
  • Datum: 4. Juni 2014
  • Zeit: 16:15 – ca. 17:45 Uhr
  • Ort: Seminarraum 4.000, Bismarckstr. 6, 91045 Erlangen

Abstract

Computergestütztes Sprachlernen findet immer mehr Anwendung im Klassenraum und bietet vor allem auch die Möglichkeit, losgelöst von Bildungseinrichtungen, vom heimischen Computer aus eine neue Sprache zu erwerben. Spezialisierte kommerzielle oder freie Webplattformen wie Babbel oder Duolingo bieten hierzu in der Regel stufenweise aufgebaute Lektionsprogramme an, die manchmal auch von Errungenschaften aus der Computerlinguistik Gebrauch machen, zum Beispiel bei der Nutzung von Sprachsynthese und Spracherkennung. Allerdings weisen diese meistens die Schwäche auf, den Nutzer, ähnlich wie in Bildungseinrichtungen, durch einen strikt vorprogrammierten Lernplan zu führen und wenig Spielraum für individuelle Interessenberücksichtigung oder Schwächentraining zu bieten.

Nach dem Motto „Learn through what you love“ hat sich das Londoner Startup-Unternehmen Tonguesten daran gemacht, eine Lernwebseite zu entwickeln, die dem Nutzer in Zukunft ermöglichen soll, Englisch mithilfe von Songtexten zu erlernen. Hierzu soll der Nutzer Links zu seinen Lieblings-Songvideos angeben können und die Seite dazu automatisch Sprachübungsaufgaben generieren.

Als Teil meiner Masterarbeit betreue ich dieses Projekt aus computerlinguistischer Perspektive mit. Fragen, mit denen ich mich auseinandersetze und die in dem Vortrag besprochen werden, sind: Wie können Songtexte mit Standard NLP-Tools (Tokenisierer, Tagger) am besten aufgearbeitet werden und was sind die Schwierigkeiten, die dabei entstehen? Wie kann man Songtexte in Bezug auf ihr Sprachlevel analysieren, um dem Lerner Lieder vorzuschlagen, die seinem Lernniveau entsprechen? Welche Art von Sprachübungsaufgaben können mithilfe von computerlinguistischen Methoden einfach generiert werden und welche stellen eine Herausforderung dar?

Über die Referentin

Ich studiere Cognitive Science an der Universität Osnabrück mit den Spezialisierungen Computational Linguistics und Artificial Intelligence und interessiere mich insbesondere für CALL (Computer-Assisted Language Learning), mit dem Fokus auf der Nutzung computerlinguistischer Methoden zur Unterstützung des Fremdsprachenerwerbs.

Während meines Bachelorstudiums nahm ich an einem Studienprojekt in Kooperation mit CASIO teil, bei dem wir in einem Team von Lehramt- und Cognitive-Science-Studierenden den didaktischen Wert von elektronischen Wörterbüchern im Fremdsprachenunterricht untersuchten und einen Funktionsprototyp zur optimierten Darstellung der Suchergebnisse ausarbeiteten. Seitdem interessiere ich mich stark für den Grenzbereich zwischen der Computerlinguistik und der Fremdsprachendidaktik.

Im Masterstudium nahm ich an einem Folgeprojekt teil, welches das Ziel hatte, ein Webtool für Lehrer zu entwickeln, das mithilfe von Textkorpora automatisch Sprachübungsaufgaben zu einem eigegebenen Text generieren kann. Seit Beginn meiner Masterarbeit rückt die Arbeit mit Songtexten als linguistische Ressource zunehmend in den Fokus meiner Forschung.

 Nach oben

Natural interactions between man and machine

  • Referentin: Vanessa Stadlbauer
  • Datum: 18. Juni 2014
  • Zeit: 16:15 – ca. 17:45 Uhr
  • Ort: Seminarraum 4.000, Bismarckstr. 6, 91045 Erlangen

Abstract

Over the past two decades, electronic devices have become increasingly powerful, complex, and ubiquitous. Phones, cars, even TVs are now offering more functionality than was ever thought possible, serving as workstations and entertainment hubs. Natural voice interaction is already making this wealth of functions easily accessible to all. With an internet connection, devices may use the computing power of the cloud to provide even faster and higher accuracy speech recognition services. The goal is to use "big knowledge" instead of "big data", developing the most human, natural, intuitive ways to use your voice to take command of information.

 Nach oben 

Natural Language Processing for Historical Texts

  • Referent: Michael Piotrowski
  • Datum: 25. Juni 2014
  • Zeit: 16:15 – ca. 17:45 Uhr
  • Ort: Seminarraum 4.000, Bismarckstr. 6, 91045 Erlangen

Abstract 

Together with the increasing availability of historical texts in digital form, there is a growing interest in applying natural language processing (NLP) methods and tools to historical texts. The potential applications range from general-purpose text retrieval to very specific analyses for particular research questions. However, the specific linguistic properties of historical texts—the lack of standardized orthography in particular—pose special challenges for NLP.

This talk aims to give an introduction to NLP for historical texts and an overview of the state of the art in this field.

Nach oben