ChatGPT im Bildungsbereich - ein Jahr später

von Sibylle Schwarz, veröffentlicht am 23.01.2024

Rechtsgebiete: Bildungsrecht|1809 Aufrufe

Im Januar und Februar letzten Jahres habe ich im beck-blog Bildungsrecht eine erste (prüfungs-) rechtliche Annäherung an den Einsatz von ChatGPT, Large Language Models, Künstliche Intelligenz in Schulbetrieb und Hochschulwesen vorgenommen:

ChatGPT und Hausaufgaben, Prüfungen vom 23. Januar 2023
ChatGPT und Hausarbeiten an Hochschulen vom 25. Januar 2023
#ChatGPT und Täuschung in Schule und Hochschule vom 2. Februar 2023
Prüfungsleistungen, Datenschutz - und nun auch KI? vom 14. Februar 2023

Ein Jahr später schaue ich, was daraus geworden ist.

SCHULE

Ein in der letzten Woche (17. Januar 2024) veröffentlichtes Impulspapier „Large Language Models und ihre Potenziale im Bildungssystem“ der SWK startet mit Ausführungen zum aktuellen Sachstand.

(Die Ständige Wissenschaftliche Kommission (SWK) ist ein unabhängiges wissenschaftliches Beratungsgremium der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (KMK)).

„Mit der kostenfreien Bereitstellung von GPT-3 hat das Unternehmen OpenAI im November 2022 weltweit für Furore gesorgt und die Diskussionen über Chancen und Risiken von künstlicher Intelligenz (KI) und insbesondere von Large Language Models (LLM) im Bildungskontext beflügelt.

… Die Länder haben schnell auf die neuen Tools reagiert und bieten Handreichungen und Fortbildungen im Unterrichtszusammenhang an (z. B. Hessisches Kultusministerium, 2023; Landesinstitut für Schulqualität und Lehrerbildung - Sachsen-Anhalt, 2023; Ministerium für Schule und Bildung des Landes Nordrhein-Westfalen, 2023). Erste Länder ermöglichen Lehrkräften einen datenschutzkonformen Zugang zu ChatGPT (z. B. Sachsen-Anhalt, Mecklenburg-Vorpommern, Rheinland-Pfalz). Ebenso stellen erste Hochschulen ihren Studierenden datenschutzkonforme Zugänge zur Verfügung (z. B. HAW München). Außerdem hat die Kultusministerkonferenz im Januar 2023 eine Arbeitsgruppe zur Künstlichen Intelligenz eingerichtet, um relevante Themen für schulische und hochschulische Kontexte zu identifizieren und Vorhaben untereinander abzustimmen.“

Der Chatbot ChatGPT, der auf einem sog. großen Sprachmodell basiert, wird

„vor allem im Zusammenhang mit Textproduktionen diskutiert … Unsicherheiten herrschen auch im Hinblick auf Prüfungsformate und wie dringend Prüfungsanforderungen durch neue Rahmenvorgaben aktualisiert werden müssen … .“

Alle sprechen von dem Chatbot ChatGPT, es ist das allen bekannte Gesicht der neuen Technologie. Neben der GPT-Reihe des Unternehmens OpenAI sind aber auch die LaMDA/PaLM/Bard-Modelle von Google Research und die LLaMA-Serie von Meta als LLM zu nennen. Sie wurden mit schier unvorstellbaren Mengen an Daten trainiert und geben das statistisch zu erwartende Wort aus. Als Large Language Models ausgeschrieben bzw. als Sprachmodell übersetzt wird sehr deutlich, dass es sich weder um eine Suchmaschine noch um „Weltwissen“ und auch nicht um Intelligenz handelt, sondern schlicht um ein Modell der sprachlichen Wahrscheinlichkeit von aufeinanderfolgenden Worten.

Das Impulspapier der SWK schlussfolgert:

„Wissen wird durch LLM keinesfalls obsolet. Interaktives Prompting muss mit kritischer Informationsprüfung kombiniert werden, z. B. durch die Prüfung auf logische Schlüssigkeit, Objektivität und Validität von Informationen. Prompt-Tuning setzt damit kritisches und analytisches Denken voraus und Lernende benötigen breites fachliches Wissen, um die Glaub- und Vertrauenswürdigkeit der LLM-generierten Inhalte einschätzen können. Dies ist gerade im Bildungskontext eine besondere Herausforderung, wo bei schwächeren Lernenden diese Kompetenzen eher nicht vorausgesetzt werden können. … Wenn die oben genannten Kompetenzen für Lernende gelten, müssen Lehrende diese ebenso beherrschen.“

Mir kommt sofort in den Sinn: Wenn die Qualität der Antworten mit der Qualität der Prompts zusammenhängt, dann wird doch Prompt-Tuning oder Prompt Engineering in Zukunft zum Bestandteil einer schulischen Note?

Mit gekonntem Prompting zum Schulerfolg?

LLM werden als Textgeneratoren und als Informationsquelle genutzt. Wenn LLM allerdings (noch?) Halluzinationen oder Biases hervorbringen, ist die Fähigkeit der Informationsbewertung gefragt. Ein weiterer Bestandteil der Schulnote? Oder anders ausgedrückt: Wer dem sprachlich einwandfrei und überzeugend KI-generierten Text auf den Leim geht, bekommt eine schlechte Note, weil seine Informationsbewertung unzureichend ausgeprägt war?

Oder er bekommt die gute Note, weil der KI-generierte Text nicht kenntlich gemacht wurde oder als solcher auch nicht erkennbar war. Zudem sprachlich einwandfrei daherkommt - Rechtschreibung, Grammatik, Textkohärenz, Argumentationsstruktur. Dann ist auch beim Lehrenden bzw. Prüfenden die Fähigkeit der Informationsbewertung gefragt. Das Impulspapier der SWK nennt es ICT-Literacy. Die Kompetenz umschreibt digitale Geräte, Anwendungen und Dienste zu übernehmen, anzupassen und zu nutzen.

Die SWK zeigt in ihrem Impulspapier auf:

„Die Nutzung von LLM beeinflusst die Prüfungskultur hinsichtlich der Lernziele und Kompetenzen der Lernenden, der Validität der Leistungsüberprüfung und der Kompetenzen seitens der Prüfenden.“

Es sei schwierig, KI-generierte Texte von menschlich erstellten zu unterscheiden. Daher gebe es Stimmen, dass traditionelle Prüfungsformate wie Hausarbeiten oder Hausaufgaben ihre Aussagekraft verlieren würden. Die SWK relativiert, denn Plagiate oder ähnliches habe es schon immer gegeben. Gemeinsam mit der Deutschen Forschungsgemeinschaft plädiert sie für eine Kennzeichnung KI-generierter Texte.

Eine weitere Lösung könne der SWK zufolge darin gesehen werden, dass

„in Prüfungen unterschieden werden zwischen hilfsmittelfreien Prüfungsteilen, in denen auf LLM nicht zurückgegriffen werden darf und Teilen, in denen sie genutzt werden können.“

Und schließlich:

„Der produktive und sichere Umgang mit KI bringt gleichzeitig neue Lernziele mit sich. Die LLM können Schreibprozesse übernehmen, aber die Steuerung im Prozess durch Prompts und die Interpretation und Reflexion der Schreibprodukte sind Aufgaben der Nutzer:innen.“

Wie schon angedeutet. Demnächst fließt in eine schulische Note nicht etwa mehr die Bewertung der Rechtschreibleistung ein, sondern die Bewertung von geschickten Prompts und kritischer Reflexion des KI-generierten Textes. Wer darin alle Halluzinationen entdeckt, bekommt dann die Note Eins?

Die SWK Forderung nach „Diese Weiterentwicklungen in der Prüfungskultur betreffen auch die Kompetenzen der Prüfenden.“ ist daher nur folgerichtig. Hier werden dicke Bretter gebohrt werden müssen. Nur wenn alle Lehrenden und Prüfenden technisch versiert genug sind und die Arbeitsweise von großen Sprachmodellen verstehen, werden sie in der Lage sein Aufgabenformate zu entwickeln und Aufgaben bereit zu stellen, die eben genau diese neu geforderten Kompetenzen wie beispielsweise Prompting und Informationsbewertung abfragen.

Auch die SWK rechnet mit einer kuriosen Situation:

„Im ungünstigsten Fall, wenn Lernende und Prüfende KI nutzen, vergleichen zwei KI-Systeme ihre Ergebnisse miteinander.“

Über all dem schwebt ein weiteres Problem: der Zugang zu Sprachmodellen.

Wie bereits erwähnt, bieten gewinnorientierte US-amerikanische Unternehmen wie OpenAI, Google Research oder Meta ihre Modelle an und lassen sich dafür bezahlen – manchmal auch nur mit Daten.

Es ist vorstellbar, dass Schüler*innen, die in der Schule LLM nutzen können, zu Hause nicht weiter üben können, weil sich ihr Elternhaus einen kostenpflichtigen Zugang (beispielsweise 20 $ im Monat für GPT4) nicht leisten kann. Schüler*innen aus finanziell schwächeren Elternhäusern oder mit wenig Unterstützung durch die Eltern könnten hier schnell ins Abseits geraten. Denn das gekonnte Prompt-Tuning, das Teil einer Note werden kann, lässt sich nicht in den Vormittagsstunden in einem Schulgebäude erlernen.

Das Impulspapier greift diese Befürchtung auch auf.

„Die bereits heute bestehenden Ungleichheiten bei der Nutzung kostenpflichtiger Lernprogramme oder Nachhilfe könnten sich durch die Verbreitung weiterer KI-Anwendungen verschärfen.“

Kostengünstige oder kostenfreie Zugänge zu KI-Systemen sind zu fordern. Chancengleichheit ist hier ein Stichwort. Auch die Frage der Lernmittelfreiheit wird aufgeworfen.

Das Impulspapier der SWK schließt mit dem Fazit:

„KI kann und sollte Lehr-Lernprozesse unterstützen, die finale Entscheidung bzw. Bewertung und die Verantwortung für das Endprodukt muss beim Menschen liegen. Eine unreflektierte Übergabe von Aufgaben z. B. an LLM kann zu Fehlern, Ungerechtigkeiten und Kompetenzverlust führen. Lerninhalte und Prüfungen müssen den Kriterien von Wahrheit, Fairness, Objektivität, Validität und Reliabilität unterliegen.“

Es soll demnach Prüfungsformate mit und ohne Hilfsmittel geben. Texte, die mit Unterstützung von LLM erstellt wurden, sollen überdies einen Hinweis enthalten.

HOCHSCHULE

Die 37. Mitgliederversammlung der Hochschulrektorenkonferenz (HRK) hat sich am 14. November 2023 zu „Digitale Hochschule: Herausforderungen und Kooperationsmöglichkeiten“ entschlossen.

Im Rahmen der Pandemie konnten die Hochschulen bereits Erfahrungen mit digitalen Lehrformaten sammeln.

„Diese Anforderungen beziehen sich vor allem auf Lern- und Campusmanagementsysteme, digital ausgestattete Studios und Lernräume sowie eine forschungs- und lehradäquate Netzwerkinfrastruktur. Zu dieser hochschulweiten Lehrinfrastruktur gehören auch integrierte Kommunikationskanäle für Videokonferenzen und Chats sowie Kollaborationsinstrumente, Foren und Dienste für wissenschaftliches und künstlerisches Arbeiten. Hierbei geht es nicht nur um finanzielle Zuwendungen, sondern auch um die Schaffung von einheitlichen rechtlichen Regelungen, z.B. in Sachen digitales Prüfungsrecht, Lehrverpflichtung sowie Daten- und Persönlichkeitsschutz.

Damit Online-Prüfungen ohne weiteres verfügbar sind, bedarf es neben den technischen und organisatorischen Voraussetzungen in manchen Ländern noch einer Rechtsgrundlage für beaufsichtigte Online-Prüfungen. Letztlich muss die Entscheidung für eine bestimmte Prüfungsform aus den fachspezifischen didaktischen Konzepten und den entsprechenden abzuprüfenden Kompetenzen abgeleitet werden.“

Die HRK erwähnt auch die Erhöhung der Informationssicherheit. Wobei es weniger um die völlige Abwehr von Angriffen und Störungen, sondern mehr um eine Verbesserung der Cyber-Resilienz gehen soll, damit nach Hackerangriffen mit der Folge von Ausfall oder Einschränkungen der digitalen Lehrinfrastruktur schnellstmöglich der digitale Normalbetrieb wieder aufgenommen werden kann.

ChatGPT stellt nun auch deutsche Hochschulen vor Herausforderungen.

Im Gegensatz zu „ICT-Literacy“ im Impulspapier der SWK spricht die Entschließung der HRK von digitale Souveränität. Um die erzeugten KI-Inhalte bewerten zu können, bedarf es einer speziellen Grundkompetenz, der KILiteracy.
Auch der Begriff "digital literacy" wurde schon verwendet.

Wie auch immer man es nennt, wir alle werden viel dazu lernen müssen.

PRÜFUNGSRECHT

„Das bedeutet, dass je nach Art der Verwendungsweise ein Täuschungsversuch vorliegen kann. Soweit die Studierenden z. B. ChatGPT oder perspektivisch eine „Word-KI“ verwenden und von ihr generiertes sowie formuliertes Wissen wortwörtlich übernehmen, ohne dies kenntlich zu machen und ohne signifikant die Textproduktion gesteuert zu haben, wird man einen Täuschungsversuch annehmen müssen.

Dagegen kann die Verwendung zulässig sein, wenn sie lediglich ergänzende Formulierungsvorschläge macht, ohne den Studierenden die Lösung der Prüfung abzunehmen. Auch die inspirierende Nutzung einer KI als Gedankenanstoß wird noch als zulässig zu erachten sein.

Fraglich ist die Zulässigkeit der Nutzung einer KI dagegen beispielsweise dann, wenn die Studierenden ihren prompt so weit präzisieren, dass dieser prompt schon vorhandenes, für die Prüfung relevantes Wissen erfordert, und wenn dann das KI-Erzeugnis in die Prüfungsleistung übernommen wird. Hierbei wird es immer auch maßgeblich auf die jeweilige Prüfungsordnung, Eigenständigkeitserklärung und die Bewertung der prüfenden Personen des Maßes der geistigen Eigenleistung der Studierenden ankommen. Es hängt daher vorrangig von dem jeweiligen Einzelfall und womöglich auch den Anforderungen der einzelnen Fachbereiche ab.“

Quelle: RECHTSGUTACHTEN ZUM UMGANG MIT KI-SOFTWARE IM HOCHSCHULKONTEXT von Thomas Hoeren (Institut für Informations-, Telekommunikations- und Medienrecht, Zivilrechtliche Abteilung an der rechtswissenschaftlichen Fakultät der Westfälischen Wilhelms-Universität Münster), März 2023

LLM zwingen dazu, die Prüfungsformate zu überdenken. Muss eine Kennzeichnungspflicht KI-generierter Texte vorgeschrieben werden? Eigenständigkeitserklärungen müssen angepasst werden. Ist die Stärkung des mündlichen Anteils in allen Prüfungen notwendig?

Schüler*innen und Studierende laufen jetzt noch Gefahr, dass ihnen Täuschung im Prüfungsverfahren vorgeworfen wird, wenn sie eine schriftliche Ausarbeitung unter Zuhilfenahme einer nicht zugelassenen KI-Anwendung angefertigt haben. „Setzen, sechs" kann es dann schnell heißen. Mehr als ein Jahr nach dem Start von ChatGPT liegen dazu noch keine Entscheidungen der Verwaltungsgerichte vor.

BERUFLICHE BILDUNG

In einem anerkannten Ausbildungsberuf wie dem Mechatroniker/der Mechatronikerin ist es nicht verwunderlich, dass KI ein elementarer Bestandteil der Ausbildung ist. In deren Abschlussprüfungen, um im Beispiel zu bleiben, gibt es z. B. den Prüfungsbereich, dem folgende Tätigkeiten zugrunde zu legen sind: Montage oder Instandhaltung mit jeweils anschließender Inbetriebnahme eines mechatronischen Systems. Hier kann ChatGPT nicht weiterhelfen.

In den Abschlussprüfungen der Berufsausbildung spielt ChatGPT kaum eine Rolle. Es gibt zwar eine schriftliche Prüfung unter Aufsicht, aber auch mündliche und praktische Prüfungen. Auch das Fachgespräch ist Teil der Abschlussprüfung. Vor den Prüfenden wird kein Auszubildender ChatGPT einsetzen.

DATENSCHUTZ - URHEBERRECHT

Aber nicht nur Schüler*innen und Studierende setzen ChatGPT ein. Immer mehr Lehrende und Hochschulpersonal nutzten KI-Anwendungen für ihre eigentliche Kernaufgabe: die Bewertung von Prüfungsleistungen.

Das o.g. Rechtsgutachten des Blogger-Kollegen Hoeren nennt zwei Szenarien.

„Szenario 1

Die prüfende Person fügt den Text der Prüfungsleistung vollständig in die Befehlseingabe der KI ein (copy & paste) und der KI-Software den Befehl der vollumfänglichen Bewertung erteilt.

Szenario 2

Andererseits kann die prüfende Person die KI-Software lediglich zur Formulierung der Bewertung bzw. des Prüfungsgutachtens einsetzen. Hierfür würde die prüfende Person ihre Auffassung über die Prüfungsleistung grob skizzieren und anschließend den Bewertungstext übernehmen.“

Ob das überhaupt zulässig ist, bestimmen die (Landes-) Hochschulgesetze und Prüfungsordnungen der jeweiligen Studiengänge bzw. Schulgesetze und einschlägige Verordnungen wie etwa Dienstordnungen. [vgl. ChatGPT und Hausaufgaben, Prüfungen vom 23. Januar 2023]

Würden Prüfende die Texte von Prüfungsleistungen in die KI-Anwendung eingeben, sind hierbei selbstverständlich datenschutzrechtliche Vorgaben zu beachten. Der Name des Studierenden oder personenbezogene Daten wie etwa Postanschrift oder Mailadresse dürften nicht eingegeben werden.

Das BVerwG entschied (Urteil vom 30. 11.2022 - 6 C 10.21 –) zudem, dass Datenschutzrecht einen Anspruch auf unentgeltliche Kopien von Prüfungsarbeiten gibt, denn die schriftlichen Prüfungsleistungen in einer berufsbezogenen Prüfung stellen personenbezogene Daten des Prüflings dar.

Der Vollständigkeit halber sei erwähnt, die „Prüferanmerkungen auch Informationen über die Prüfer enthalten und insoweit zugleich personenbezogene Daten der Prüfer darstellen (EuGH, Urteil vom 20. Dezember 2017 - C-434/16 - Rn. 36 ff.).“ [vgl. dazu Prüfungsleistungen, Datenschutz - und nun auch KI? vom 14. Februar 2023]

Die Leipziger Richter urteilten, das in einer berufsbezogenen Prüfung zum einen die schriftlichen Prüfungsleistungen des über eine Kennziffer identifizierbaren Prüflings dem Begriff der personenbezogenen Daten unterfallen. Denn sie spiegeln den Kenntnisstand, das Kompetenzniveau, die Gedankengänge, das Urteilsvermögen sowie das kritische Denken des Prüflings wider und zielen - mit entsprechenden Auswirkungen auf seine beruflichen Chancen – darauf ab, seine beruflichen Fähigkeiten und seine Berufseignung zu beurteilen. Mit einer handschriftlichen Prüfungsleistung sind zudem kalligraphische Informationen verbunden.

Wenn schriftliche Prüfungsleistungen Kenntnisstand, Kompetenzniveau, Gedankengänge, Urteilsvermögen und kritisches Denken widerspiegeln, stellen sich auch sofort Fragen des Urheberrechts. Diese Prüfungsleistungen könnten urheberrechtlichen Schutz genießen und würden durch Prüfende, die die schriftliche Prüfungsleistungen in die KI-Anwendung hineinkopieren, vervielfältigt - und dort wiederum zu Trainingsdaten.

„Die Verwendung des KI-generierten Textes mag zwar keine Urheberrechtsverletzung darstellen, eine Täuschung kann dennoch bejaht werden – wie der Verwaltungsgerichtshof Baden-Württemberg, Urteil vom 7. Juli 2020 – 9 S 2809/19 – hervorhob: „… Denn die für die Rücknahme des Doktorgrades maßgebliche Frage, ob die Dissertation eine selbständige wissenschaftliche Leistung darstellt oder dies aufgrund einer Täuschung zu verneinen ist, ist nach eigenständigen Kriterien und insbesondere unabhängig davon zu beurteilen, ob mit der Täuschung zugleich eine Urheberrechtsverletzung verbunden ist …“ [vgl. #ChatGPT und Täuschung in Schule und Hochschule vom 2. Februar 2023]

Die Erstellung und anschließende Bewertung der schriftlichen Prüfungsleistung wirft prüfungsrechtliche, datenschutzrechtliche und urheberrechtliche Fragen auf. Und die Antwort auf diese Fragen ist wie immer im Recht: Es kommt darauf an. Welche KI-Anwendung wurde wie genau eingesetzt? Es muss auf den berühmten Einzelfall abgestellt werden.

KI DEFINITION – AI ACT

Was ist unter KI zu verstehen? Die OECD hat mit einer eher politischen Definition von KI begonnen. In den Abstimmungen zum AI Act (KI Gesetz) wurde diese Definition rechtlich weiterentwickelt. Denn das Unionsrecht will nicht die Technologie als solche verbieten. Vielmehr geht es darum, Anwendungsbereiche der KI-Technologie zu benennen, in denen ein hohes Risiko gesehen wird, mit der Folge einer Regulierung.

Der AI Act wird als Produktsicherheitsgesetz angesehen und stellt überwiegend Regeln für Anbieter auf.

Zu den verbotenen KI-Systeme zählen etwa Emotionserkennungssysteme im Bildungswesen (hier etwa falsches Verhalten in Prüfungen) und am Arbeitsplatz.

Ich erinnere mich an einen Blog-Beitrag mit einem Fall während der Pandemie:
Ein Student der Christian-Albrechts-Universität zu Kiel (CAU) wollte mit gerichtlicher Hilfe im März 2021 durchzusetzen, dass die von ihm in elektronischer Form abzulegenden Prüfungen ohne die vorgesehene Videoaufsicht stattfinden. … Die in § 7 Corona-Ergänzungssatzung Elektronische Prüfungen – 2021 geregelte Videoaufsicht ist für den Zweck der Sicherung der prüfungsrechtlichen Chancengleichheit geeignet. Durch die Videoaufsicht kann überprüft werden, ob sich der Prüfling akustisch mit anderen Personen (im Raum oder über Telefon etc.) austauscht oder (auffällige) nicht erlaubte Hilfsmittel verwendet. …

Vgl. dazu HOCHSCHULE Distanzprüfung unter Videoaufsicht vom 4. März 2021

Im Frühjahr 2021 wehrte sich ein Student dagegen, dass die Videoüberwachung nur dazu diente, zu überprüfen, ob er sich akustisch mit anderen Personen im Raum oder per Telefon austauschte oder andere auffällige, nicht erlaubte Hilfsmittel benutzte.

Und im Januar 2024 ist die Rede von KI Emotionserkennungssystemen als Hochrisiko.

BEWERBUNG

Wer mehr über KI im Bewerbungsprozess und einige Kuriositäten erfahren möchte, dem sei der Podcast des Deutschlandfunks empfohlen:

Wie ich KI überzeuge, mich einzustellen

Schroeder, Carina; Heller, Piotr; 18. Januar 2024

- - -

Dieser Blog-Beitrag über ChatGPT wurde selbstverständlich auch mit Hilfe einer KI-/LLM-Anwendung gefertigt. Eine Kennzeichnung ist das noch nicht, aber dennoch wird ein Transparenzgedanke berücksichtigt.