Künstliche Intelligenz als Beurteilungshilfe: Wie genau können KI-Urteile sein und wie können sie helfen?

Es ist Freitagabend: Die Klausuren, Texte und Tests stapeln sich und das Wochenende rückt für viele Lehrkräfte in weite Ferne. Die Beurteilung der Leistungen ist eine Grundlage für den Unterricht – und sie ist eine unliebsame, weil aufwendige Herkulesaufgabe für viele Lehrkräfte.

Die Beurteilung ist die Voraussetzung für viele, leistungsadaptive Unterrichtsprozesse und darf in diesem Zusammenhang nicht reduziert werden auf das Festlegen einer Note. Lehrkräfte müssen wissen, welche Stärken und Schwächen ihre Schülerinnen und Schüler haben, um z.B. individuelle Feedbacks zu erstellen, die Planung der nächsten Unterrichtsstunde an die Leistungen anzupassen, oder auch eine Note für die Leistung zu geben.

Allerdings steht dem Nutzen der große Zeitaufwand der Leistungsbeurteilung entgegen, sodass Lehrkräfte darin Unterstützung benötigen könnten. Künstliche Intelligenz (KI) könnte diese Unterstützung sein (UNESCO, 2023) - eine Frage an ChatGPT reicht dabei aus. Doch für den Einsatz im Unterricht sind zentrale Aspekte zu bedenken:

„Wie genau können KI-Beurteilungen sein, unter welchen Bedingungen funktionieren sie und ist der Einsatz von KI zur Beurteilung fair für alle Schülerinnen und Schüler?“

Was heißt genaues Urteil?

Eine Leistungsbeurteilung in der Schule ist dann genau, wenn sie die Fähigkeit abbildet, die die Schülerinnen und Schüler erbringen, z.B. das Verständnis der Unterrichtsinhalte. Zusätzlich ist für ein genaues Urteil wichtig, dass man für die gleiche Leistung auch das gleiche Urteil erhält, egal, wer oder was das Urteil gibt. Diese Kriterien zu erfüllen ist sehr herausfordernd, sowohl für Mensch als auch KI-Algorithmen, sodass es häufig nicht perfekt gelingt. Selbst Expertinnen und Experten sind sich bei der Bewertung von komplexen Leistungen wie dem Schreiben von Texten nur in bis zu 60 % der Fälle einig (Rupp et al., 2019). Da trotz dieser Ungenauigkeit menschliche Beurteilungen im Unterricht hilfreich sind, wird als Vergleichsmaßstab für die Genauigkeit der KI-Modelle nicht eine perfekte Beurteilung, sondern die Leistungsbeurteilung der Lehrkraft herangezogen.

“Genau” heißt für ein KI-Modell also, so gut wie eine erfahrene Lehrkraft zu sein, die sich Zeit für die Beurteilung nimmt.

Wie wird die Genauigkeit bestimmt?

Es werden die Urteile des KI-Modells mit möglichst „korrekten“ Beispielbeurteilungen verglichen. Zur Erstellung dieser Vergleichsbeispiele sind mehrere komplexe Schritte notwendig, die definieren, wie genau so ein KI-Modell sein kann.

Im ersten Schritt wird eine Aufgabe bestimmt, für die man die Qualität der Beurteilung messen möchte. Die Auswahl der Aufgabe ist wichtig, da ein KI-Modell, das in der Lage ist, eine Argumentationsaufgabe genau zu bewerten, nicht unbedingt für Gedichte verwendet werden kann.

Zur ausgewählten Aufgabe werden im nächsten Schritt passende Beurteilungskriterien entwickelt, welche für das ganze Leistungsspektrum der Schülerinnen und Schüler die verschiedenen Qualitäten ihrer Texte nach z.B. Inhalt, Sprache und Stil abbilden.

Sind die ersten zwei Schritte abgeschlossen und die Aufgabe und die Kriterien klar, wird eine möglichst diverse Gruppe von Schülerinnen und Schülern gebeten, die Aufgabe zu bearbeiten. Die Diversität der Gruppe ist im Sinne der Bildungsgerechtigkeit besonders wichtig, da nur anhand der Daten von z.B. leistungsschwachen Schülerinnen und Schülern auch überprüft werden kann, ob die KI-Beurteilung für diese Gruppe zutreffend und damit das KI-Modell fair ist. Damit von möglichst vielen unterschiedlichen Gruppen von Schülerinnen und Schülern zumindest ein paar Texte in den Beispielen sind, werden meist mehrere hundert Leistungen von verschiedenen Schülerinnen und Schülern für den Vergleich erfasst.

Jede der Leistungen muss dann von mindestens zwei Personen beurteilt werden, damit jede Beurteilung möglichst wenig von einer bestimmten Person abhängt. Beide Personen vergeben zunächst einzelne Urteile. Wenn sie sich nicht einig sind, muss ein gemeinsames Urteil ausdiskutiert werden. Dieses gemeinsame Urteil ist die „korrekte“ Beispielbeurteilung und die Basis der Evaluation der KI-Modelle.

Wie genau ist die KI-Beurteilung?

Der aufwendige Prozess der Erstellung von Vergleichsbeispielen führt dazu, dass es national (Schaller et al., 2024b; Stahl et al., 2024b) und international (Crossley et al., 2022) nur für wenige Aufgabenstellungen und einzelne Klassenstufen Beispielbeurteilungen gibt, an denen die Qualität geprüft werden. Nur für diese Vergleichsbeispiele können Aussagen getätigt werden. Studien zeigen:

„Bei diesen Aufgaben stimmen die KI-Modelle so genau mit dem „korrekten“ Urteil überein wie die beiden Personen untereinander (z.B. Schaller et al., 2024a; Stahl et al., 2024a). “

Außerdem waren sie fair - für alle Gruppen von Schülerinnen und Schülern. Das bedeutet, dass ein Modell exakt so genau sein kann wie eine Person aus dem Kollegium, die speziell für die Beurteilung einer bestimmten Aufgabe trainiert wurde und sich bei der Beurteilung viel Zeit nahm. Dieses Ergebnis zeigt das große Potenzial der KI-Beurteilung für die Schulpraxis.

Grenzen der automatisierten Beurteilung

Es liegen bislang keine Daten darüber vor, wie gut Evaluationen von generativer KI in der Praxis sind, z.B., wenn die Aufgabenstellung und die Evaluationskriterien nicht so klar definiert sind, wie am Ende eines Forschungsprojektes. Unklar ist auch, was passiert, wenn die Materialien und Kriterien von geringer Qualität sind. Es bleibt daher abzusehen, ob KI-Modelle auch in der Schulpraxis so genau sind.

Genauigkeit ist nicht das einzige Kriterium für die Qualität einer Beurteilung. Ein weiteres Kriterium ist, dass die Beurteilung für die Schülerinnen und Schüler nachvollziehbar sein muss, damit sie diese mit den Lehrkräften diskutieren können. Bei leistungsfähigen KI-Modellen ist eine solche Begründung noch nicht möglich.

„Generative KI-Modelle geben zwar eine Antwort auf die Frage, wie das Urteil zustande gekommen ist, jedoch bedeutet das nicht, dass es innerhalb des Modells auch wirklich so zustande kam. “

KI-Modelle beurteilen schriftliche Leistungen nicht regelbasiert, sondern anhand von Mustern, die in Daten gefunden werden (siehe Ercikan, 2022 für eine weiterführende Diskussion). Dies führt zu Fehlern, für die ein Mensch die Verantwortung übernehmen muss.

Was heißt das für die Schulpraxis?

Die Genauigkeit der KI-Beurteilung führt zu Diskussionen, ob Lehrkräfte weiter allein beurteilen sollten oder die KI in Zukunft die Beurteilung übernimmt. Für die Schulpraxis muss deshalb die Frage im Mittelpunkt stehen, in welchen Prozessen KI-Modelle den Prozess um zehn Prozent, 20 Prozent oder sogar die Hälfte beschleunigen können (Wachsmuth et al., 2024), ohne dass die Schwächen zu sehr ins Gewicht fallen. Besonders hohes Potenzial haben dabei Prozesse bei denen Schülerinnen und Schülern oder Lehrkräfte aufbauend auf KI-Beurteilung selbst weiterdenken und mit den Urteilen arbeiten. In der Auseinandersetzung mit den Beurteilungen werden die KI-Urteile geprüft und gegebenenfalls verworfen, falls sie nicht hilfreich sind. Beispiele hierfür sind die Arbeit mit Feedback, da dessen Wirkung darin besteht, dass die Schülerinnen und Schüler es nutzen, um ihre Leistungen zu verbessern, oder die Erstellung mehrerer leistungsangepasster Aufgaben, aus denen die Lehrkräfte einige für den Unterricht auswählen können. Damit der Einsatz von KI-generierten Beurteilungen in der Schulpraxis zielführend ist, sind also gewisse Kompetenzen bei Schülerinnen und Schülern sowie Lehrkräften erforderlich.

Fazit und Perspektive

Automatisierte Beurteilungen von schriftlichen Leistungen werden seit über 50 Jahren untersucht (siehe Hammond [2019] für einen geschichtlichen Überblick und Page [1966] für die zentralen Artikel mit bis heute aktuellen Ideen) und haben in den letzten Jahren unter Laborbedingungen eine Genauigkeit erreicht, die der von Menschen nahekommt.

„Mit dieser Genauigkeit können KI-Urteile eine Unterstützung für Lehrkräfte und einen Unterricht sein, der sich an die Fähigkeiten der Schülerinnen und Schüler anpasst. “

Um die Möglichkeiten der KI in der Schulpraxis zu nutzen, ist der nächste Schritt, die Genauigkeit unter authentischen Unterrichtsbedingungen zu prüfen. Dafür sind Infrastrukturen wie korrekte Beispielbeurteilungen notwendig, an denen Algorithmen, Forschende und EdTech-Unternehmen die Qualität ihrer Urteile sowie die Qualität und Fairness der automatisierten Systeme unter verschiedenen Nutzungsperspektiven prüfen können. Darauf aufbauend ist es Aufgabe von Lehrkräften und Bildungsforschung, Szenarien zu entwerfen, in denen die Stärken von KI-Modellen - wie die relativ genaue und sehr differenzierte Leistungsbeurteilung - genutzt werden können und die Schwächen von KI-Modellen - wie die mangelnde Zuverlässigkeit und Nachvollziehbarkeit der Beurteilungen - weniger ins Gewicht fallen. Diese Szenarien könnten den Weg für eine Neudefinition der effektiven Einsatzmöglichkeiten von Leistungsbeurteilungen ebnen.

Literatur

Crossley, S., Tian, Y., Baffour, P., Franklin, A., Benner, M., & Boser, U. (2024). A large-scale corpus for assessing written argumentation: PERSUADE 2.0. Assessing Writing, 61, 100865. https://doi.org/10.1016/j.asw.2024.100865

Ercikan, K., & McCaffrey, D. F. (2022). Optimizing Implementation of Artificial-Intelligence-Based Automated Scoring: An Evidence Centered Design Approach for Designing Assessments for AI-based Scoring. Journal of Educational Measurement, 59(3), 272-287. https://doi.org/10.1111/jedm.12332

Hammond, J. W. (2019). Definitive programs: Rhetoric, computation, and the (pre)history of controversy over automated essay scoring, 1954-1965. In J. Juszkiewicz, J. Warfel, E. Losh, J. Buehl, J. H. Maher, H. J. Burgess, & J. W. Hammond (Eds.), Rhetorical machines: Writing, code, and computational ethics (pp.91–112). University Alabama Press.

Page, E. B. (1966). The Imminence of... Grading Essays by Computer. The Phi Delta Kappan, 47(5), 238–243. http://www.jstor.org/stable/20371545

Rupp, A. A., Casabianca, J. M., Krüger, M., Keller, S., & Köller, O. (2019). Automated essay scoring at scale: A case study in Switzerland and Germany. ETS Research Report Series, 2019(1), 1-23.

Schaller, N. J., Ding, Y., Horbach, A., Meyer, J., & Jansen, T. (2024a). Fairness in Automated Essay Scoring: A Comparative Analysis of Algorithms on German Learner Essays from Secondary Education. In Proceedings of the 19th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2024) (pp. 210-221).

Schaller, N. J., Horbach, A., Höft, L. I., Ding, Y., Bahr, J. L., Meyer, J., & Jansen, T. (2024b). DARIUS: A Comprehensive Learner Corpus for Argument Mining in German-Language Essays. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) (pp. 4356-4367).

Stahl, M., Biermann, L., Nehring, A., & Wachsmuth, H. (2024a). Exploring LLM Prompting Strategies for Joint Essay Scoring and Feedback Generation. ArXiv. /abs/2404.15845

Stahl, M., Michel, N., Kilsbach, S., Schmidtke, J., Rezat, S., & Wachsmuth, H. (2024b). A School Student Essay Corpus for Analyzing Interactions of Argumentative Structure and Quality. ArXiv. /abs/2404.02529

UNESCO. (2023, September 8) Guidance for generative AI in education and research. https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research

Autor

Dr. Thorben Jansen, Psychologe, untersucht seit 2018, wie künstliche Intelligenz in der Bildung genutzt werden kann, um Schüler:innen an ihrem individuellen Punkt im Lernprozess zu fördern. Seit 2021 leitet Jansen eine Forschungsgruppe von Nachwuchswissenschaftler:innen am IPN - Leibniz Institut für die Pädagogik der Naturwissenschaften und Mathematik zur Förderung argumentativer Kompetenzen von Schüler:innen mithilfe von maschinellem Lernen. Seine Forschungsschwerpunkte sind generative KI, argumentatives Schreiben, Feedback und Motivation.