Das StuWiss-Korpus

Korpus Studentisches Wissenschaftliches Schreiben

Über das Korpus

Das StuWiss-Korpus wurde im Rahmen des laufenden Dissertationsprojekts Studentisches wissenschaftliches Schreiben in der Erst- und Fremd-/Zweitsprache Deutsch: Eine vergleichende Korpusanalyse sprachlicher Bestände (Arbeitstitel) von Andrea Lösel erhoben.

Es umfasst 263 Masterarbeiten aus DaF/DaZ-Masterstudiengängen. Diese wurden zwischen 2009 und 2023 an fünf deutschen Hochschulen eingereicht: Freie Universität Berlin, Friedrich-Schiller-Universität Jena, Pädagogische Hochschule Freiburg, Universität Bielefeld und Universität Leipzig. Weiter untergliedert in ein L1-Teilkorpus (135 Masterarbeiten) und ein L2-Teilkorpus (128 Masterarbeiten) bietet das StuWiss-Korpus eine empirische Grundlage für die Erforschung studentischen wissenschaftlichen Schreibens in der Erst- und Fremd- bzw. Zweitsprache Deutsch.

Erhebung

Die Masterarbeiten sowie zugehörige Metadaten wurden über die LimeSurvey-Instanz der Universität Leipzig erhoben. Die Metadaten umfassen Informationen zur Masterarbeit und ihrem Entstehungskontext sowie Informationen zum Bildungs- und sprachlichen Hintergrund der studentischen Verfasser:innen.

Aufbereitung und Annotation

Im Zuge der Aufbereitung erfolgte zunächst die Konvertierung der Ausgangsdateien in das Format TEI P5 XML, auf dessen Grundlage die Dateibereinigung erfolgte. Die bereinigten Texte wurden mit spaCy (Version 3.6.1, Modell: de_core_news_lg) annotiert. Die Annotationen umfassen dabei Tokenisierung, Lemmatisierung, PoS-Tagging nach dem STTS sowie syntaktische Dependenzannotation nach dem TIGER-Tagset.

Die bereinigten und annotierten Daten liegen aktuell im CoNLL-U-Format vor. Zudem wurden zum Einlesen in das Korpustool ANNIS die Daten in das relANNIS-Format konvertiert.

Korpusdaten auf einen Blick

Die nachfolgende Tabelle bietet einen Überblick über das StuWiss-Korpus und seine beiden Teilkorpora:

Token gesamt Sätze gesamt Dateianzahl
Gesamtkorpus 5.865.974 260.027 263
L1-Teilkorpus 3.235.532 138.838 135
L2-Teilkorpus 2.630.442 121.189 128

Zugang

Das Korpus soll mit seinen Primärdaten sowie Metadaten und Annotationen langfristig durch die Integration in ein geeignetes Korpustool oder Bereitstellung in einem Repositorium auch anderen Forschenden für eine Query and Analysis Only-Abfrage verfügbar gemacht werden. Die Bereitstellung ist aktuell noch in Planung.

Kontakt

Andrea Lösel
andrea.loesel@uni-leipzig.de
Herder-Institut, Universität Leipzig