Phantastische Prompts und wo sie zu finden sind: Ein kleiner Guide für KI-generiertes Feedback für Schule und Hochschule

Von am 24.07.24
Inhalt

Feedback-Prompts in der Bildung

KI-generiertes Feedback kann echt nützlich sein, erfolgt es doch unmittelbar und individuell. Darin sind sich Menschen aus Praxis und Forschung mittlerweile einig. Doch die Qualität des KI-generierten Feedbacks hängt maßgeblich von der Art und Weise ab, wie wir mit Sprachmodellen kommunizieren. Daraus ist eine neue Disziplin entstanden: Das Prompting, oder Prompt Engineering. Darunter versteht man die Kunst, KI-Systeme durch präzise formulierte Eingaben zu den gewünschten Ausgaben zu bringen.

Was sind Feedback-Prompts und warum sind sie wichtig?

Feedback-Prompts sind also speziell formulierte Eingaben an KI-Systeme, die darauf abzielen, qualitativ hochwertiges und pädagogisch wertvolles Feedback zu erzeugen. Wie relevant, konstruktiv oder individuell Feedback generiert wird, hängt also an der Art und Weise, wie wir Prompts formulieren.

Der Feedback-Prompt-Prozess: Von der Idee zur Umsetzung

Bevor wir uns den spezifischen Techniken für Feedback-Prompts widmen, ist es wichtig zu verstehen, dass die Erstellung von Feedback-Prompts ein Prozess ist. Dieser lässt sich in drei Hauptschritte unterteilen:

  • Zieldefinition: Klare Formulierung des gewünschten Feedback-Ergebnisses
  • Feedback-Prompt-Formulierung: Erstellung des Prompts basierend auf dem Feedback-Ziel
  • Evaluation des Feedback-Outputs: Bewertung und ggf. Anpassung des Feedback-Prompts

Dieser Dreiklang lässt sich zusammenfassen als: "Think big, start small, iterate often" - besonders wichtig bei der Entwicklung effektiver Feedback-Prompts.

Abbildung 1: Schematische Darstellung des Vorgehens
Abbildung 1: Schematische Darstellung des Vorgehens

Ein Beispiel für eine mögliche Zielsetzung könnte sein: Der Prompt soll möglichst konsistent Feedback generieren. Das heißt, die gleiche SchülerInnen-Leistung muss zu jedem Zeitpunkt gleich bewertet werden. Dazu muss der Prompt sehr deterministisch formuliert sein und sowohl Bewertungskriterien, als auch das Ausgabeformat beinhalten. Ist der Prompt weniger deterministisch formuliert, wäre das Ergebnis jedes Mal ein anderes. Außerdem würden weder Bewertungskriterien noch Lernziele oder evidenzbasierte Methoden für lernförderliches Feedback berücksichtigt.

Ein Beispiel für einen deterministisch formulierten Prompt lautet folgendermaßen[i]:

Element/functionPrompt formulation
Role promptingYou are a professor of macroeconomics and you pose this question to your students:
Variable<Insert Question here>
Task descriptionYou evaluate the student’s response based on the sample solution using the criteria of content and style, and provide suggestions for improvement. This is the sample solution. It is structured and builds the argument coherently. This solution is correct in terms of content and very good in terms of style. It would receive five out of five stars for content and style. Sample solution:
Variable<Insert sample solution here>
Stepwise task descriptionPlease evaluate the student’s response based on the sample solution in three steps
Set behaviorHere are some general tips for evaluation: Good feedback is honest and motivating. Always address the student directly using “you,” for “Your response.” Explain or mention the relevant points to which you are referring
Step 1: Evaluation of content (text feedback)Step 1: Provide feedback on the content. Answer the following questions: Is the student’s response correct in terms of content? Orient yourself to the meaning of the sample solution but do not mention the sample solution. Are there areas for improvement? Use a maximum of 2 sentences for this feedback
Step 2: Evaluation of style (text feedback)Step 2: Provide feedback on the style: Is the language used by the student appropriate for the field of study? Is the response logically structured and does the argumentation make sense? Are there areas for improvement? Use a maximum of 2 sentences for this feedback
Step 3: Evaluation (numeric feedback)Step 3: Evaluate the content and style of the response on a scale of 1 to 5 stars. The rating is based on feedback on content and style. 1 star indicates a very poor performance. Five stars indicate very good performance. Only display the following for Step 3: Content: Number of stars (Please also provide the number of stars as a numeral in parentheses) Style: Number of stars (Please also provide the number of stars as a numeral in parentheses)
Set formatYou provide a concise evaluation divided into 1. to 3. Always display the stars as follows: star. Output:

Einige Tipps für bessere Prompts

Beschreibungen und Zusammenstellungen von Prompt-Methoden gibt es nicht erst seit ChatGPT[ii], doch wer eine aktuelle und umfangreiche Übersicht sucht, wird bei Schulhoff et al. und ihrem Prompt Report fündig[iii]. Alle im Folgenden genannten Prompt Methoden werden dort genannt und weiterführende Quellen angegeben. Die Methoden können natürlich auch miteinander kombiniert werden. Einfach testen, verbessern, erneut testen!

Übrigens hilft AI Literacy, bessere Prompts zu formulieren[iv].

Es lohnt sich, die Funktionsweise von Sprachmodellen besser zu verstehen, um einschätzen zu können, wo Möglichkeiten und Limitationen generativer KI bestehen.

Prompt-Techniken: eine Übersicht

ZielTechnikPrompt-BeispieleBewertung
Einfache Feedback-GenerierungZero-Shot Prompting"Gib konstruktives Feedback zu folgendem Mathematikaufsatz eines 10.-Klässlers über Trigonometrie. Berücksichtige dabei Klarheit der Erklärungen, mathematische Genauigkeit und Tiefe des Verständnisses."Zero-Shot Prompting bedeutet, dass wir dem KI-System eine Aufgabe stellen, ohne vorher Beispiele zu geben. Diese Methode kann effektiv sein, wenn das KI-System bereits über umfangreiches Wissen in dem betreffenden Bereich verfügt.
Orientierung an BeispielenFew-Shot Prompting"Hier sind zwei Beispiele für konstruktives Feedback zu Mathematikaufsätzen: Beispiel 1: [Aufsatz] - Feedback: Deine Erklärung der Sinusfunktion ist klar und präzise. Versuche, mehr reale Anwendungsbeispiele einzubeziehen, um das Konzept greifbarer zu machen. Beispiel 2: [Aufsatz] - Feedback: Die grafische Darstellung der Kosinusfunktion ist exzellent. Achte darauf, alle Schritte deiner Berechnungen zu zeigen, um dein Verständnis zu demonstrieren. Nun gib ähnlich strukturiertes Feedback zu folgendem Aufsatz: [Schüleraufsatz]"Bei Few-Shot Prompting geben wir dem System einige Beispiele, bevor wir es die eigentliche Aufgabe lösen lassen. Diese Technik kann besonders nützlich sein, um dem KI-System den gewünschten Stil und die Struktur des Feedbacks zu vermitteln.
Nachvollziehbarkeit erhöhenChain-of-Thought (CoT) Prompting[v]"Analysiere den folgenden Aufsatz Schritt für Schritt. Beginne mit einer Zusammenfassung der Hauptpunkte, identifiziere dann Stärken und Schwächen, und schließe mit konkreten Verbesserungsvorschlägen. Erkläre bei jedem Schritt deine Gedankengänge."Chain-of-Thought Prompting regt das KI-System an, seinen „Denkprozess“ Schritt für Schritt darzulegen. Diese Methode kann zu detaillierterem und nachvollziehbarerem Feedback führen, was besonders für komplexe Themen oder fortgeschrittene Lernende wertvoll sein kann.
Verbesserung der Feedback-KonsistenzSelf-Consistency-Prompting[vi]"Generiere drei verschiedene Feedback-Versionen für den folgenden Aufsatz. Vergleiche dann diese Versionen und erstelle ein finales Feedback, das die konsistentesten und wertvollsten Punkte aus allen drei Versionen enthält."Self-Consistency Prompting beinhaltet die Generierung mehrerer Antworten. Diese Methode kann helfen, zufällige Fehler oder Inkonsistenzen im Feedback zu reduzieren.
Anpassung an spezifische LernkontexteIn-Context Learning"Du bist ein erfahrener Lehrer für 11.-Klässler im Fach Biologie. Der folgende Aufsatz wurde von einem Schüler geschrieben, der Schwierigkeiten mit der Erklärung komplexer Prozesse hat, aber ein gutes Verständnis von Fachbegriffen zeigt. Gib Feedback, das auf diese spezifischen Stärken und Herausforderungen eingeht."In-Context Learning nutzt den Kontext des Prompts, um bessere Ergebnisse zu liefern. Diese Methode ermöglicht es, das Feedback präzise auf den individuellen Lernkontext zuzuschneiden.
Personalisierung von FeedbackDynamische Anpassung von Prompts"Du bist ein erfahrener Tutor für den Schüler Max, 15 Jahre alt, der ein besonderes Interesse für Biologie zeigt, aber Schwierigkeiten hat, komplexe Zusammenhänge in schriftlicher Form darzustellen. In den letzten drei Aufsätzen hat Max Fortschritte in der Verwendung von Fachbegriffen gemacht, braucht aber noch Unterstützung bei der Strukturierung seiner Argumente. Berücksichtige diese Informationen, wenn du Feedback zu seinem neuesten Aufsatz über Fotosynthese gibst. Konzentriere dich besonders darauf, wie er seine Argumente aufbaut und verknüpft."Prompts könnten dynamisch angepasst werden, basierend auf dem Lernverlauf, den individuellen Stärken und Schwächen sowie den persönlichen Lernzielen des Schülers. Hier gilt es aber, auf das System zu achten. In der Gratis-Version von ChatGPT bezahlt man mit seinen Daten. Achtet auf datenschutzkonformen Umgang mit Sprachmodellen und Dinge wie „Auftragsdatenverarbeitung“.
Kombination von menschlichem und KI-generiertem Feedback„Flipped interaction“"Analysiere das folgende KI-generierte Feedback zu dem Schüleraufsatz. Identifiziere Bereiche, die möglicherweise zusätzliche menschliche Einsicht oder Empathie erfordern. Schlage vor, wie ein menschlicher Lehrer das Feedback ergänzen oder nuancieren könnte, um es noch wertvoller für den Schüler zu machen." KI-Systeme können eine erste Runde detaillierten Feedbacks geben, das dann von menschlichen Lehrern überprüft, ergänzt oder angepasst wird.
Mehrere Perspektiven auf ein ThemaTree-of-Thoughts-Prompting[vii]"Stell dir vor, drei verschiedene Lehrkräfte geben Feedback zu diesem Schüleraufsatz. Jede Lehrkraft schreibt jeweils einen Schritt ihres Denkprozesses auf, dann teilen sie diesen mit der Gruppe. Dann gehen alle Lehrkräfte zum nächsten Schritt über usw. Wenn eine Lehrkraft merkt, dass sie etwas falsch bewertet hat, scheidet sie aus. Der Aufsatz lautet: [Schüleraufsatz]. Gebt detailliertes Feedback, das Klarheit, Inhalt und Struktur des Aufsatzes berücksichtigt."Tree-of-Thoughts-Prompting ermöglicht es, verschiedene Ansätze und Perspektiven auf das Feedback zu einem Schüleraufsatz zu sammeln. Diese Methode fördert ein umfassenderes und detaillierteres Feedback.

Tabelle: Übersicht über mögliche Prompting-Methoden im Bereich Feedback

Häufig vergessen: Hyperparameter Tuning und RAG-Systeme

Damit Prompts zuverlässig gut funktionieren, können weitere Einstellungen getroffen werden. Wenn man die Muße hat, tiefer einzusteigen, begibt man sich dazu in die Entwicklerumgebungen, beispielsweise den Playground von OpenAI. Hier hat man die Möglichkeit, Parameter wie Temperature einzustellen, um das Verhalten des Sprachmodells über Prompts hinausgehend besser zu kontrollieren. Ein Temperature-Wert von 0 etwa führt zu einem repetitiven, deterministischen Output. Vermutlich bräuchte es einen eigenen Blog-Beitrag, um Hyperparameter weiter vorzustellen. Daher belassen wir es an dieser Stelle bei einer kurzen Erwähnung.

Retrieval-Augmented Generation (RAG) ist ein weiterer Hebel, der bedient werden kann, um Feedback zu verbessern. RAG ermöglicht es, die sprachlichen Fähigkeiten eines Sprachmodells zu nutzen, die inhaltliche Ebene aber durch eigene Dokumente zu ergänzen. Das könnten beispielsweise Unterrichtsinhalte sein. RAG funktioniert in vielen Fällen hinreichend gut, jedoch besteht wie immer bei Sprachmodellen die Möglichkeit, dass Inhalte halluziniert werden. Es gilt also: Auch bei fortgeschrittenem Prompting, bei dem an die Hyperparameter und RAG gedacht wurde, muss das generierte Feedback kritisch betrachtet werden. Damit kommen wir auch schon zu den Herausforderungen.

Fazit: Die Zukunft von KI-generiertem Feedback und Prompts

Die Beherrschung von Feedback-Prompts verändert die Art und Weise, wie wir in Bildungskontexten Rückmeldungen geben und empfangen. Die natürlich-sprachige Eingabe in Form von Prompts wird uns wohl noch eine Weile begleiten, daher lohnt es sich auch tatsächlich, sich mit den Methoden dahinter zu beschäftigen. Abschließend einige Gedanken, die man sich in dem Kontext machen kann:

  • Effektivität durch Vielfalt: Die Kombination verschiedener Prompt-Techniken - von Zero-Shot über Few-Shot bis hin zu Chain-of-Thought - ermöglicht es Lehrenden, maßgeschneidertes Feedback für unterschiedliche Lernszenarien zu generieren.
  • Personalisierung und heterogenitätssensible Rückmeldungen: Feedback-Prompts erlauben eine nie dagewesene Individualisierung des Lernprozesses. Lehrende können KI-Systeme anweisen, auf spezifische Lernstile, Vorwissen und Entwicklungsziele einzugehen.
  • Zeitersparnis und Konsistenz: Durch die Automatisierung repetitiver Feedback-Aufgaben gewinnen Lehrende Zeit für persönliche Interaktionen. Gleichzeitig sorgen gut formulierte Prompts für konsistentes Feedback über große Lerngruppen hinweg.
  • Kontinuierliche Verbesserung: Der iterative Prozess der Prompt-Entwicklung fördert eine Kultur des ständigen Lernens und der Verbesserung, sowohl für Lehrende als auch für KI-Systeme.
  • Ethische Überlegungen: Mit der zunehmenden Nutzung von KI-generiertem Feedback müssen wir wachsam bleiben gegenüber potenziellen Verzerrungen und ethischen Implikationen. Transparenz und menschliche Aufsicht bleiben unerlässlich.
  • Zukünftige Entwicklungen: Wir können erwarten, dass Feedback-Prompts in Zukunft noch präziser und kontextbezogener arbeiten. Außerdem wird die Fähigkeit von Sprachmodellen, Prompts zu befolgen besser werden – Stichwort „instruction following“. Die heutigen KI-Systeme sind die schlechtesten, mit denen wir jemals wieder arbeiten werden, hat ein schlauer Mensch neulich formuliert, dessen Name mir gerade nicht mehr einfällt. Vermutlich war es Ethan Mollick. Multimodale Prompts, die Text, Audio und visuelle Elemente kombinieren, könnten ganzheitlicheres Feedback ermöglichen.
  • Integration in Lernmanagementsysteme: Die nahtlose Einbindung von Feedback-Prompt-Systemen in bestehende digitale Lernplattformen wird den Einsatz dieser Technologie weiter vereinfachen und verbreiten.
  • Übermäßige Abhängigkeit von KI: Es besteht die Gefahr, dass Lehrende und Lernende zu abhängig von KI-generiertem Feedback werden könnten. Dies könnte zu einer Vernachlässigung wichtiger menschlicher Aspekte des Lernprozesses führen, wie Empathie, kontextbezogenes Verständnis und die Fähigkeit, zwischen den Zeilen zu lesen. Es ist entscheidend, dass Feedback-Prompts als Ergänzung und nicht als Ersatz für menschliches Feedback gesehen werden.
  • Komplexität und Zugänglichkeit: Die Erstellung effektiver Feedback-Prompts erfordert ein gewisses Maß an Fachwissen und technischem Verständnis. Dies könnte zu einer digitalen Kluft führen, bei der nur technisch versierte Pädagogen in der Lage sind, diese Technologie effektiv zu nutzen. Es muss sichergestellt werden, dass die Entwicklung und Nutzung von Feedback-Prompts für alle Lehrenden zugänglich und handhabbar bleibt.

Abschließend lässt sich sagen: Feedback-Prompts sind, so wie sich die Situation derzeit darstellt, ein Werkzeug zur Demokratisierung von hochwertigem, personalisiertem Feedback. Indem wir diese Technologie verantwortungsvoll und kreativ einsetzen, können wir eine Lernumgebung schaffen, die adaptiver, inklusiver und effektiver wird.

TL;DR: Feedback-Prompts für Schule und Hochschule

Der Blogbeitrag erklärt die Kunst des Promptings, also wie man präzise Eingaben an KI-Systeme formuliert, um hilfreiches Feedback zu generieren. Wichtige Techniken umfassen Zero-Shot Prompting, Few-Shot Prompting und Chain-of-Thought Prompting. Jede Methode wird detailliert beschrieben und bewertet, um Lehrkräften zu helfen, effektivere und konsistentere Rückmeldungen zu geben. Hyperparameter-Tuning und RAG-Systeme werden ebenfalls kurz erwähnt, um die Effizienz der Prompts weiter zu verbessern.

Literatur

[i] Hackl, V., Müller, A.E., Granitzer, M., & Sailer, M. (2023). Is GPT-4 a reliable rater? Evaluating consistency in GPT-4's text ratings. Frontiers in Education, 8:1272229. doi: 10.3389/feduc.2023.1272229. Verfügbar unter: https://doi.org/10.3389/feduc.2023.1272229 [Zugriff am 09. Juli 2024].

[ii] Lu, Yao, Bartolo, Max, Moore, Alastair, Riedel, Sebastian, & Stenetorp, Pontus. (2022). Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity. Verfügbar unter: https://doi.org/10.48550/arXiv.2104.08786 [Zugriff am 09. Juli 2024].

[iii] Schulhoff, Sander, Ilie, Michael, Balepur, Nishant, Kahadze, Konstantine, Liu, Amanda, Si, Chenglei, Li, Yinheng, Gupta, Aayush, Han, HyoJung, Schulhoff, Sevien, Dulepet, Pranav Sandeep, Vidyadhara, Saurav, Ki, Dayeon, Agrawal, Sweta, Pham, Chau, Kroiz, Gerson, Li, Feileen, Tao, Hudson, Srivastava, Ashay, Da Costa, Hevander, Gupta, Saloni, Rogers, Megan L., Goncearenco, Inna, Sarli, Giuseppe, Galynker, Igor, Peskoff, Denis, Carpuat, Marine, White, Jules, Anadkat, Shyamal, Hoyle, Alexander, & Resnik, Philip. (2024). The Prompt Report: A Systematic Survey of Prompting Techniques. Verfügbar unter: https://doi.org/10.48550/arXiv.2406.06608 [Zugriff am 09. Juli 2024].

[iv] Knoth, Nils, Tolzin, Antonia, Janson, Andreas, & Leimeister, Jan Marco. (2024). AI Literacy and its Implications for Prompt Engineering Strategies. Computers and Education: Artificial Intelligence. Verfügbar unter: https://ssrn.com/abstract=4805867 [Zugriff am 09. Juli 2024].

[v] Kojima, Takeshi, Gu, Shixiang Shane, Reid, Machel, Matsuo, Yutaka, & Iwasawa, Yusuke. (2022). Large language models are zero-shot reasoners. Verfügbar unter: https://arxiv.org/abs/2205.11916 [Zugriff am 09. Juli 2024].

[vi] Wang, Xuezhi, Wei, Jason, Schuurmans, Dale, Le, Quoc, Chi, Ed, Narang, Sharan, Chowdhery, Aakanksha, & Zhou, Denny. (2022). Self-consistency improves chain of thought reasoning in language models. Verfügbar unter: https://arxiv.org/abs/2203.11171 [Zugriff am 09. Juli 2024].

[vii] Yao, Shunyu, Yu, Dian, Zhao, Jeffrey, Shafran, Izhak, Griffiths, Thomas L., Cao, Yuan, & Narasimhan, Karthik. (2023). Tree of thoughts: Deliberate problem solving with large language models. Verfügbar unter: https://arxiv.org/abs/2305.10601 [Zugriff am 09. Juli 2024].

Kleiner Hinweis zum Titel des Blogbeitrags “Phantastische Prompts und wo sie zu finden sind”. Der Titel wurde inspiriert vom Titel folgender Studie: Lu, Yao, Bartolo, Max, Moore, Alastair, Riedel, Sebastian, & Stenetorp, Pontus. (2022). Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity. Die vollständige bibliografische Angabe findet man unter [ii] im Literaturverzeichnis.

Autorin

Vroni Hackl verbindet in ihrer Arbeit wissenschaftliche Forschung und praktische Anwendung von generativer KI in Bildung und Marketing. Sie promoviert als Mitarbeiterin im BMBF-geförderten Projekt Deep Write an der Uni Passau. Außerdem ist sie Gründerin des KI Marketing Bootcamps, wo sie Fach- und Führungskräfte im Einsatz von Sprachmodellen schult. Zuvor war sie Gründerin der e-commerce Marke Franz der Bettenbauer sowie Leiterin der Unternehmenskommunikation der mittelständischen Unternehmensberatung ICUnet.Group. Sie hat 2020 alle ihre bisherigen beruflichen Zelte abgebrochen, um sich mit generativer KI auseinandersetzen zu können.