Table of Contents | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
|
...
Dabei wurden 2000 Datensätze, bestehend aus Beschreibungstexten und Volltexten, mithilfe eines angepassten Prompts durch ein KI-Modell bewertet und die Ergebnisse mit bereits vorhandenen redaktionellen Bewertungen verglichen.
Die Analyse zeigte, dass die KI-Bewertung, insbesondere bei kürzeren Beschreibungstexten, eine hohe Übereinstimmung mit den menschlichen Bewertungen aufwies (MAE = 0,62). Bei den längeren und komplexeren Volltexten hingegen fiel die Abweichung größer aus (MAE = 0,92). Mögliche Ursachen für das schlechtere Abschneiden der Volltexte können Bewertungen sein, die von den Fachredaktionen in die Texte eingeflossen sind oder eine höhere Textqualität gegenüber Volltexte (trotz geringerer Zeichenlänge). Dennoch zeigt die Untersuchung weiteren Forschungsbedarf auf, insbesondere in Bezug auf die Erfassung von komplexen Inhalten in Volltexten und die Entwicklung eines besseren Messinstruments.
Erstellung des Test-Datensatzes
...
In der Analyse der Testdurchführung wurden spezielle Datensätze identifiziert (“Sonderfälle”), bei denen die KI-basierte Bewertung der Neutralität signifikant von den redaktionellen Bewertungen abwich. Diese Abweichungen betrugen in den Sonderfällen mindestens 2 Punkte auf der Neutralitätsskala, was auf potenzielle Herausforderungen oder Missverständnisse in der KI-Bewertung hinweist.
Zwei Beispiele für Sonderfälle aus dem Testdurchlauf mit den Beschreibungstexten:
Code Block |
---|
{ "properties_cclom:general_description": "\"Emilia Galotti\" \u2013 die Zusammenfassung als Chat! Lisa erkl\u00e4rt dir, was in Gotthold Ephraim Lessings b\u00fcrgerlichem Trauerspiel Emilia Galotti passiert und wie die Figuren zueinander stehen. ", "original_neutralness_score": 2, "ai_neutralness_score": 4, "ai_reasoning": "Der Text bietet eine ausgewogene Darstellung des Inhalts von Lessings 'Emilia Galotti', ohne eine spezifische ideologische Voreingenommenheit zu zeigen. Er beleuchtet die Charaktere und Aspekte des Werkes auf eine sachliche Weise und tr\u00e4gt dazu bei, das Verst\u00e4ndnis f\u00fcr die gesellschaftlichen und moralischen Fragen zu f\u00f6rdern, die im Drama behandelt werden. H\u00f6here Werte sind nicht zutreffend, da der Text nicht aus einer wissenschaftlichen Quelle stammt und somit nicht die h\u00f6chsten Standards der Neutralit\u00e4t und Unabh\u00e4ngigkeit erf\u00fcllt." }, { "properties_cclom:general_description": "1882 l\u00e4sst Nietzsche in seiner fr\u00f6hlichen Wissenschaft einen \u201etollen Menschen\" feststellen, dass Gott mit der Aufkl\u00e4rung sein Ende gefunden habe. Nun m\u00f6ge der Mensch Gottes Stelle einnehmen. Ein Jahr darauf fordert Nietzsches Zarathustra, der sinnlose, weil leistungsm\u00fcde oder -schwache Mensch m\u00fcsse vom \u00dcbermenschen abgel\u00f6st werden. Der Mensch kranke an seinem Geiz mit der S\u00fcnde. In Nietzsches Antichrist schlie\u00dflich wird das Programm kurz vor Nietzsches geistiger Umnachtung 1888 entfaltet. Er beginnt mit: \"Die Schwachen und Mi\u00dfrathnen sollen zu Grunde gehn: erster Satz unsrer Menschenliebe. Und man soll ihnen noch dazu helfen\" (vgl. AC I,2). ", "original_neutralness_score": 3, "ai_neutralness_score": 1, "ai_reasoning": "Der Text zeigt eine deutliche ideologische Voreingenommenheit, indem er Nietzsches Ansichten zitiert, die menschenverachtende Tendenzen reflektieren. Dies steht im Widerspruch zu den Werten des Grundgesetzes und dem Prinzip der Menschenw\u00fcrde. Eine kritische Auseinandersetzung mit diesen Ideen fehlt, und somit wird das Neutralit\u00e4tsgebot verletzt." }, |
Ein Auszug der Sonderfälle (ca. 50%) wurde mit dem auf Logik trainierten LLM Model gpt-o1-mini analysiert. Dabei wurden folgende Gründe für die Abweichungen genannt:
Einseitige Perspektive:
Beispiel: Texte, die sich nur auf eine Methode (z.B. Ölfleckversuch zur Atomdurchmesserbestimmung) konzentrieren, ohne alternative Ansätze zu erwähnen.
Mangel an Pluralismus und Ausgewogenheit:
Beispiel: Erklärungen zu technischen Themen wie Wechselstromkreisen ohne Bezug auf unterschiedliche Anwendungen oder gesellschaftliche Implikationen.
Potenzial für Fehlinterpretationen oder Manipulation:
Beispiel: Chemische Experimente ohne Hinweise auf Sicherheitsmaßnahmen, was zu Missverständnissen oder Gefahren führen könnte.
Einseitige Darstellung von Experimenten:
Beispiel: Stumme Experimentiervideos, die ohne erklärenden Kontext präsentiert werden und somit pädagogische Tiefe fehlen lassen.
Technische Inhalte ohne Kontextualisierung:
Beispiel: Förderung spezifischer Softwarelösungen (z.B. GeoGebra für Binomialverteilung) ohne Erwähnung alternativer Methoden.
Fehlende ethische und gesellschaftliche Implikationen:
Beispiel: Diskussion von E-Mail-Sicherheit ohne Berücksichtigung der gesellschaftlichen Bedeutung von Datenschutz.
Manuelle Einzelfallprüfung von Beispielen:
...
Auswertung der Ergebnisse
Die Untersuchung der Fähigkeit eines Large Language Models (LLM) zur Bewertung der Neutralität von Bildungsinhalten führte zu einigen aufschlussreichen Ergebnissen. Insgesamt zeigte das LLM in beiden Testreihen – basierend auf Beschreibungstexten und Volltexten – eine solide Leistungsfähigkeit, die mit den redaktionellen Bewertungen vergleichbar war, aber auch einige spezifische Herausforderungen offenbarte.
Leistung des LLM im Vergleich zu menschlichen Bewertungen
Beschreibungstexte:
Die durchschnittliche absolute Abweichung (MAE) lag bei 0,62 Punkten, was eine relativ hohe Übereinstimmung mit den menschlichen Bewertungen signalisiert. Über 50 % der Bewertungen stimmten in einem engen Bereich mit den redaktionellen Einschätzungen überein.
Die KI zeigte eine ähnliche Verteilung der Neutralitätsscores wie die menschlichen Bewertungen, was darauf hindeutet, dass die Beschreibungstexte bereits eine hohe Informationsdichte enthalten, die eine präzise Bewertung erlaubt. Möglicherweise enthalten die Beschreibungstexte bereits Hinweise auf die Qualität, die von den Redaktionen eingearbeitet wurden.
Volltexte:
Die Volltexte waren im Schnitt viermal so lang wie die Beschreibungstexte und stellten eine größere Herausforderung für die KI dar. Die durchschnittliche absolute Abweichung lag bei 0,92 Punkten. Dies könnte darauf hindeuten, dass die Fülle an Informationen oder aber auch die Qualität der Volltexte die Neutralitätsbewertung erschwert.
Auffällig war die Tatsache, dass die Volltexte eine höhere Betonung von Gefühlen und höhere Anforderungen an deren Verständnis aufwiesen, was möglicherweise zu größeren Abweichungen in der Bewertung führte.
Sonderfälle:
In den Sonderfällen, bei denen die KI-Bewertung um mindestens 2 Punkte von der redaktionellen Bewertung abwich, zeigte sich, dass die KI besonders auf einseitige Perspektiven und fehlenden Pluralismus aufmerksam reagierte. Dies führte in einigen Fällen zu strikteren Bewertungen, insbesondere bei technischen oder wissenschaftlichen Inhalten ohne breitere Kontextualisierung.
Diese Abweichungen machen deutlich, dass das LLM in der Lage ist, auf Aspekte aufmerksam zu machen, die menschliche Redaktionen eventuell weniger stark gewichtet haben. Besonders hervorzuheben ist die Fähigkeit des Modells, Risiken für Missverständnisse oder Manipulationen in den Texten zu erkennen.
Vergleich der Metriken
Insgesamt zeigten die Metriken (Precision, F1-Score, MAE, MSE, R²) einen akzeptablen Grad an Übereinstimmung, wobei die Beschreibungstexte besser abschnitten als die Volltexte. Dies deutet darauf hin, dass kürzere, präziser formulierte Texte für die KI einfacher zu bewerten sind als lange, komplexe Volltexte.
Fazit
Das LLM konnte in einem breiten Spektrum von Bildungsinhalten eine angemessene Bewertung der Neutralität liefern. Die erzielten Ergebnisse zeigen, dass es als Unterstützung für redaktionelle Bewertungsprozesse wertvolle Einblicke bieten kann, insbesondere bei der Identifikation von potenziell einseitigen oder ideologisch geprägten Inhalten.
Gleichzeitig weist die Analyse darauf hin, dass die KI bei längeren, komplexeren Volltexten größere Schwierigkeiten hat, was weiteren Forschungsbedarf nahelegt. Weitere Tests könnten untersuchen, ob und wie das LLM durch zusätzliche Trainingseinheiten oder feinere Anpassungen des Prompts (z.B. durch eine optimierte Gewichtung von Aspekten wie Pluralismus) besser in der Lage ist, die volle inhaltliche Tiefe und den pluralistischen Anspruch von Volltexten zu erfassen.
Es zeigt sich auch, dass die LLM-Bewertung auf bestimmte Aspekte der Neutralität stärker fokussiert, wie etwa die Vielfalt der Perspektiven und das Risiko für Fehlinterpretationen. Diese Fokusverschiebung könnte zu wertvollen Ergänzungen im Prozess der Neutralitätsbewertung beitragen, sollte jedoch immer im Kontext der redaktionellen Standards interpretiert werden.