Große Textkorpora, wie beispielsweise das British National Corpus, stellen hohe Anforderungen an das verwendeten Datenhaltungs- und Abfragesystem. Häufig werden dafür proprietäre Systeme (z. B. SARA oder Corsica) verwendet, was in erhöhtem Wartungsaufwand resultiert. Die Verwendung einer handelsüblichen relationalen Datenbank wäre deshalb wünschenswert. Darüberhinaus ist es geplant, alle an der Abteilung Computerlinguistik entwickelten und eingesetzten Softwarepakete in naher Zukunft in einer linguistischen Workbench (Arbeitsumgebung mit gemeinsamer bzw. einheitlicher graphischer Benutzeroberfläche) zusammenzufassen. Diese soll auch den kontrollierten Zugriff auf Korpora und Lexika ermöglichen. Im Rahmen einer Magisterarbeit sollen Konzepte für die Speicherung und Abfrage von Korpora in einer relationalen Datenbank (IBM DB2) erarbeitet und praktisch umgesetzt werden. Die Bearbeitung dieses Themas erfordert gute Kenntnisse in einer geeigneten Programmiersprache (Perl, C oder Java). Kenntnisse der Datenbankabfragesprache SQL, bzw. die Bereitschaft, sie sich anzueignen, sind für diese Arbeit natürlich unabdingbar.
[1] Piotrowski, Michael (1997): Using an RDBMS for Corpus Storage and Retrieval
[2] Beutel, Björn (1997): Malaga 4.x
[3] Walter, Bernd (1991): Datenbankkonzepte für wissensbasierte Systeme
[4] Brodie, Michael L. (1986): On conceptual modelling
[5] Clifford, James (1990): Formal semantics and pragmatics for natural language querying
[6] Date, Christopher J. : An introduction to database systems
[7] Elmasri, Ramez, Navathe, Shamkant B. (1989): Fundamentals of database systems
[8] Domenig, Marc (1987): Entwurf eines dedizierten Datenbanksystems fuer Lexika
[9] Papazoglou, Mike, Valder, Wilhelm (1989): Relational database management