Informatik Schwere Radieschencreme
Mithilfe maschineller Lernverfahren gewinnen Forschende neue Einblicke, warum Kindern bei manchen Wörtern eher Rechtschreibfehler unterlaufen als bei anderen
„Hefte raus, wir schreiben ein Diktat!“ – Annas Magen krampft sich zusammen. „Das gibt doch wieder eine schlechte Note“, denkt sie. Anna geht in die 4. Klasse und schreibt eigentlich sehr gern, am liebsten Briefe an ihren Opa und Fantasiegeschichten. In diesen Texten macht sie auch gar nicht so viele Rechtschreibfehler, sagt ihr Lehrer. Wenn sie aber vor einem Diktat sitzt und weiß, dass es jetzt auf jeden Buchstaben ankommt, macht ihr Kopf einfach zu. Dann soll sie auch noch Wörter wie „Radieschencreme“ schreiben, die sie in ihrem ganzen Leben vermutlich nie wieder benutzen wird.
So wie Anna geht es vielen ihrer Mitschülerinnen und Mitschülern – und zwar seit Generationen. Auch wenn klassische Diktate immer seltener werden, bleiben Testformen mit festgelegtem Wortmaterial das Mittel der Wahl, um die Rechtschreibfähigkeiten von Kindern zu benoten.
Aber warum schreiben Kinder Wörter falsch? Zum Beispiel, weil nicht alle Wörter so geschrieben werden, wie man sie spricht. Der T-Laut etwa kommt als t in Tante vor, aber auch als tt in Bett, als d in Hund, als Th in Thron oder als dt in Stadt. Regeln können helfen, den richtigen Buchstaben zu ermitteln: Verlängere „Hund“ zu „Hunde“, dann hörst du ein „d“. Bei „Thron“ oder „Stadt“ gibt es solche Regeln jedoch nicht. Die korrekte Schreibweise dieser Wörter muss man sich merken.
Fehler werden häufig bei solchen Wörtern gemacht, die von der standardmäßigen Laut-Buchstaben-Zuordnung abweichen – Kinder schreiben dann „Tron“ oder „Bet“. Aber Forschende zeigten, dass auch solche Wörter seltener falsch geschrieben werden, wenn ein Kind sie bereits häufig gelesen hat – beispielsweise in Büchern. Dementsprechend ändert sich die Fehlerhäufigkeit auch im Laufe der Schulzeit – deshalb schreiben jüngere Kinder vielleicht „Rütmus“, ältere hingegen „Rhythmus“. All diese Einflüsse müssten also zusammen berücksichtigt werden, um die Schwierigkeit eines Wortes zu bestimmen.
Der Ansatz, den wir verfolgten, kommt aus der Informatik. Mithilfe von „maschinellen Lernverfahren“ lassen sich in großen Datenmengen komplexe Zusammenhänge erkennen und darauf basierend Vorhersagen treffen. Das Verfahren lässt sich durchaus mit dem täglichen Wetterbericht vergleichen, der auf der Basis vieler Daten aus der Vergangenheit Vorhersagen in die Zukunft erlaubt. In der Rechtschreibforschung wurden Zusammenhänge bislang nur zwischen einigen wenigen Aspekten gezeigt, mithilfe von maschinellen Lernverfahren ist jedoch eine viel komplexere Modellierung möglich.
Dazu müssen die informatischen Methoden mit linguistischem Wissen verknüpft werden. An dieser Schnittstelle zwischen Sprachwissenschaft und Informatik liegt die Computerlinguistik. Uns interessierte, ob Rechtschreibfehler in Texten von Grundschulkindern so systematisch auftreten, dass sie sich mittels maschineller Lernverfahren vorhersagen lassen. Aus dieser Fehlerwahrscheinlichkeit, die das Vorhersagemodell einem Wort zuschreibt, ließe sich seine Schwierigkeit ableiten – und warum es schwierig ist.
Unsere Datengrundlage bestand aus knapp 2000 Texten. Rund 250 Kinder hatten die Aufgabe bekommen, eine Bildergeschichte in Worte zu fassen. Diese Aufgabe mussten sie zwischen der 2. und 4. Klasse mit jeweils anderen Geschichten mehrfach wiederholen. Die Kindertexte haben wir zunächst digitalisiert und manuell korrigiert. Die weitere Verarbeitung übernahm dann der Computer. Zunächst codierte er jedes Wort mit einer Reihe von Merkmalen wie der Zahl der Buchstaben, wie man es ausspricht, wie häufig das Wort in einer Sammlung von digitalisierten Kinderbüchern auftritt oder welche Rechtschreibhürden es enthält. Hinzu kamen Informationen zum Kind wie Klassenstufe oder bisherige Rechtschreibleistung. Im nächsten Schritt fütterten wir einen maschinellen Lernalgorithmus mit diesen Daten. Dieser besteht aus einer Reihe von „Entscheidungsbäumen“, die so etwas lernen wie – sehr vereinfacht dargestellt – „wenn ein Wort mehr als 7 Buchstaben lang ist und seltener als 30-mal in der digitalisierten Kinderbuchsammlung vorkommt, dann wird es von einem Kind in der 3. Klasse mit unterdurchschnittlicher Rechtschreibleistung wahrscheinlich falsch geschrieben“.
Um diese Brücke zwischen Rechtschreibforschung und Informatik zu schlagen, mussten wir einige Hindernisse überwinden. So untersuchten wir keine „Modelltexte“ mit vorselektierten Wörtern, sondern echte Texte. Die Zahl der Rahmenparameter war also vergleichsweise hoch. Man kann sich das so vorstellen, als würden chemische Experimente nicht unter Laborbedingungen, sondern draußen auf der Wiese durchgeführt, wo Temperaturen und Luftdruck schwanken. Im Fall unserer Studie bedeutete dies, dass unterschiedliche Textlängen zu berücksichtigen waren und unterschiedlich schwere Wörter unterschiedlich häufig vorkamen.
Darüber hinaus haben die meisten maschinellen Lernverfahren einen großen Nachteil: Sie liefern zwar gute Vorhersagen, aber niemand weiß, was sich in ihrem Inneren abspielt. Was genau „lernt“ das Modell, worauf stützt es seine Vorhersagen? Dies mussten wir auf indirekte Weise herausfinden. Das kann man sich ungefähr so vorstellen, als würde man einen Gegenstand vor eine Kerze stellen und dann anhand des Schattens versuchen zu erkennen, um welchen Gegenstand es sich handelt. So variierten wir einzelne Merkmale und schauten, wie sich das auf die Ergebnisse auswirkt.
Am Ende konnte das beste unserer Modelle immerhin in 41 Prozent der Fälle korrekt vorhersagen, dass ein Wort falsch geschrieben wird – und zwar in Texten von zehn Kindern, die das Modell zuvor noch nie gesehen hatte. Zugleich war die Zahl der „Fehlalarme“ gering: Wenn das Modell einen Fehler vorhersagte, hatte es auch in knapp 60 Prozent der Fälle recht.
Auch wenn sich diese Quote in geringem Maße weiter erhöhen lässt, eine absolute Zuverlässigkeit der Vorhersagen ist natürlich nicht zu erwarten. Denn individuelle Faktoren wie Mehrsprachigkeit oder Konzentrationsfähigkeit der Kinder konnten wir mangels ausreichender Daten nicht berücksichtigen. Doch ein wichtiger Schritt zur Bestimmung, welche Wörter für welche Gruppen von Kindern wie schwierig zu schreiben sind, ist gemacht. Eine wichtige Erkenntnis dabei war: Nicht nur einzelne Rechtschreibhürden bestimmen die Schwierigkeit eines Wortes, sondern ein komplexes Zusammenspiel mit anderen Faktoren wie Wortlänge und Worthäufigkeit.
Damit könnte es in Zukunft möglich sein, die Schwierigkeit von Unterrichtsmaterialien, Tests und Diktaten besser einzuschätzen. Wörter wie „Radieschencreme“, das bereits Günther Thomé vom ISB Oldenburg als plakatives Beispiel für exotische Wörter in Diktaten anführte, würden damit in einem neuen Licht erscheinen, wenn man nicht nur orthografische Hürden, sondern sämtliche Worteigenschaften berücksichtigt.
Eine Katastrophe
Sprache lebt – und ist reformunwillig
Deutsche Sprache, schwere Sprache, das stimmt schon. Nur ein Beispiel: Das Geschlecht der Substantive folgt keiner Regel und ist für alle, die Deutsch lernen, ein Kreuz. Der Löffel, die Gabel, das Messer – warum? Es gibt so viele Regeln und so viele Ausnahmen. „Keine andere Sprache ist so schludrig und systemlos“, konstatierte einst Mark Twain.
Dabei – oder vielleicht deshalb – gehört Deutschland zu den wenigen Ländern, in denen es eine behördlich organisierte Sprachinstanz gibt. Hierzulande ist das der „Rat für deutsche Rechtschreibung“. Gegründet wurde er 2004, nachdem die Rechtschreibreform von 1996 jahrelang leidenschaftlich kritisiert worden war. Majonäse, Nessessär oder Grislibär waren nicht nur den Sprachgourmets zu viel. „Unzweifelhaft eine Katastrophe“, grantelte Literaturkritiker Marcel Reich-Ranicki. „Die ‚frischgebackene (also erst neulich geschlossene) Ehe` soll jetzt ‚eine frisch gebackene (also offenbar gerade dem Ofen entschlüpfte) Ehe‘ werden.“
Gut gemeint also, aber nicht gut gemacht, weshalb jener Rat das Ganze noch mehrfach überarbeitete und von vielen Skurrilitäten befreite. Doch nicht von allen: Nachdem Kaiser Wilhelm II. bei der ersten amtlichen Rechtschreibregelung von 1901 darauf bestand, dass bei der Eliminierung des Buchstabens „h“ aus Wörtern wie „Noth“ und „Thor“ der „Thron“ unangetastet bleibt, wagte sich in diesem Fall auch später niemand an das „h“. Es bleibt bis heute beim „Thron“.
Das ist schön, denn Sprache lebt – und das wird sie auch in diesen Zeiten beweisen, in denen sich manche wieder vor einer „Katastrophe“ fürchten. Stichwort: geschlechtergerechte Sprache. — JS