Automatische Annotation von Schülertexten - Herausforderungen und Lösungsvorschläge am Beispiel des Projekts KoKo

Abstract

Der Vortrag stellt den iterativen Workflow zur Erstellung eines lemmatisierten, POS-getaggten und nach ausgewählten sprachlichen Merkmalen annotierten Lernerkorpus vor und geht auf Schwierigkeiten und Besonderheiten bei der Korpuserstellung mit L1-Lernertexten ein. Lernertexte weisen häufig Schreibweisen und Konstruktionen auf, die der Standardsprache nicht entsprechen. Da korpuslinguistische Verarbeitungstools gewöhnlich Zeitungstexte o.Ä. als Eingabe erwarten, können Lernertexte bei der automatischen Verarbeitung Schwierigkeiten bereiten. Dadurch kann die mitunter sehr hohe Zuverlässigkeit der Tools (z.B. eines POS-Taggers, Giesbrecht & Evert 2009) erheblich herabgesetzt. Eine Herausforderung bei der korpuslinguistischen Aufbereitung von Lernertexten liegt folglich darin, ihre Merkmale im Workflow so zu berücksichtigen, dass sie trotz der Abweichungen vom Standard mit einer ähnlichen Zuverlässigkeit verarbeitet werden können wie standardsprachliche Texte. Im Projekt „KoKo“ wurden rund 1300 Schülertexte (811.330 Tokens) aus Oberschulen in Thüringen, Nordtirol und Südtirol für ein deutschsprachiges L1-Lernerkorpus aufbereitet. Mit o.g. Abweichungen wurde dabei folgendermaßen umgegangen: Bereits bei der Digitalisierung der handschriftlichen Daten wurden die Transkripte mit zusätzlichen Annotationen versehen, die Orthographiefehler, okkasionelle Kurzwortbildungen, Emotikons u.Ä. erfassen. Nachfolgend wurde das Korpus lemmatisiert und getaggt. In einem separaten Verarbeitungsschritt wurden mithilfe des POS-Taggers nicht automatisch verarbeitete Textmerkmale ermittelt, die anschließend entweder manuell annotiert oder dazu verwendet wurden, den Tagger neu zu trainieren. Der dadurch in Gang gesetzte iterative Prozess der Korpuserstellung ermöglicht es, die Qualität der Lemma- und POS-Annotationen des L1-Lernerkorpus sukzessiv zu verbessern. Diese iterative Herangehensweise kann auch für die mögliche Annotation weiterer Ebenen beibehalten werden (vgl. Voormann & Gut 2008).

Date
Event
Workshop from the “Arbeitsgruppe: Korpusbasierte Linguistik” at the 40. Österreichische Linguistiktagung
Location
Universität Salzburg, Salzburg, AT
Next
Previous