Document toolboxDocument toolbox

Bewertung durch LLM (Singlescore)

Abstract

In dieser Untersuchung wurde getestet, ob ein Large Language Model (LLM) zur Bewertung der Neutralität von Bildungsinhalten genutzt werden kann, indem es diese vergleichbar wie ein Mensch bewertet.

Dabei wurden 2000 Datensätze, bestehend aus Beschreibungstexten und Volltexten, mithilfe eines angepassten Prompts durch ein KI-Modell bewertet und die Ergebnisse mit bereits vorhandenen redaktionellen Bewertungen verglichen. Die Analyse zeigte, dass die KI-Bewertung, insbesondere bei kürzeren Beschreibungstexten, eine hohe Übereinstimmung mit den menschlichen Bewertungen aufwies (MAE = 0,62). Bei den längeren und komplexeren Volltexten hingegen fiel die Abweichung größer aus (MAE = 0,92). Mögliche Ursachen für das schlechtere Abschneiden der Volltexte können Bewertungen sein, die von den Fachredaktionen in die Texte eingeflossen sind oder eine höhere Textqualität gegenüber Volltexte (trotz geringerer Zeichenlänge). Dennoch zeigt die Untersuchung weiteren Forschungsbedarf auf, insbesondere in Bezug auf die Erfassung von komplexen Inhalten in Volltexten und die Entwicklung eines besseren Messinstruments.

Erstellung des Test-Datensatzes

Die Grundlage dieser Untersuchung bildeten 2000 Datensätze von Bildungsinhalten, die von der Plattform http://WirLernenOnline.de abgerufen wurden und für die bereits redaktionelle Bewertungen zur Neutralität vorlagen.

Diese wurden auf einer Skala von 0 bis 5 eingeordnet, wobei 0 für manipulative oder verfassungswidrige Inhalte und 5 für vollständig neutrale und wissenschaftlich fundierte Inhalte steht.

image-20241014-093424.png
Redaktionelle Skala für Neutralität

Abruf der Rohdaten

Die Daten wurden über die REST-API der Plattform extrahiert. Dabei wurde das Feld cccm:oeh_quality_neutralness genutzt, um Inhalte nach den vorhandenen Neutralitätsscores (0-5) zu filtern. Diese Daten wurden in einer JSON-Datei gespeichert und für die weitere Analyse vorbereitet.

Anreicherung der Rohdaten mit Volltexten

In den Datensätzen sind Beschreibungstexte der Bildungsinhalte enthalten. Um einen Vergleich mit Volltexten durchführen zu können, wurden die URL aus dem Feld: ccm:wwwurl ausgelesen und die Inhalte der Webseiten extrahiert.

Zum Einsatz kam hierbei die Python Bibliothek Goose3, die intern BeautifulSoup nutzt und überflüssige Textbestandteile z.B. zur Struktur der Webseite mittels NLP-Techniken entfernt. Das Script wird im Anhang aufgeführt.

Die Volltexte, sowie Zusammenfassungen und Keywords wurden dann als additional_data in die JSON gespeichert und den Datensätzen zugeordnet.

Bei Datensätzen, für die Goose3 keinen Volltext generieren konnte (z.B. aufgrund eines sehr kleinen Textkorpus), wurden die Zusammenfassungen genutzt, die von Goose3 aus allen verfügbaren Infos der Webseiten gebildet werden.

Filterung der Rohdaten

Zusätzlich zu den Beschreibungstexten wurden Volltexte von den zugehörigen Webseiten der Bildungsinhalte abgerufen. Die URLs, die im Feld ccm:wwwurl gespeichert sind, wurden genutzt, um die Inhalte mittels der Python-Bibliothek Goose3 zu extrahieren (basiert auf beautifulsoup). Diese Bibliothek entfernt unnötige Textbestandteile und extrahiert den Hauptinhalt der Webseiten. Für Datensätze, bei denen keine vollständigen Texte erfasst werden konnten, wurden Zusammenfassungen genutzt, die auf den verfügbaren Informationen der Webseiten basieren.

Filterung der Rohdaten: Die Rohdaten wurden gefiltert, um sicherzustellen, dass alle relevanten Felder gefüllt und die Mindestlänge der für die Bewertung genutzten Textfelder gewährleistet ist. Dabei wurden folgende Kriterien angewendet:

  1. Entfernt wurden Datensätze, bei denen folgende Felder leer waren:

    • properties.cclom:general_description (Beschreibungstexte)

    • additional_data.full_text (Volltexte)

    • properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)

  2. Zusätzlich wurden Datensätze ausgeschlossen, deren Textfelder (Beschreibungstexte und Volltexte) weniger als 60 Zeichen umfassen, um ausreichend Material für eine sinnvolle Bewertung zu haben.

    • properties.cclom:general_description (Beschreibungstexte)

    • additional_data.full_text (Volltexte)

  3. Schließlich wurde die Anzahl der Datensätze auf 2000 reduziert und normalisiert. Dabei wurden folgende Felder zur gleichmäßigen Verteilung einbezogen:

    • properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)

    • properties.ccm:taxonid (Disziplinen)

Disziplinen wurden berücksichtigt, um eine ausgewogene Stichprobe der Bildungsinhalte aus unterschiedlichen Fachbereichen zu gewährleisten.

Ein Round-Robin-Verfahren (zyklisches Rundlaufverfahren) wurde angewandt, um die Daten gleichmäßig zu verteilen.

Eine Gleichverteilung ist jedoch auf Grund der vorübergehend gut bewerteten Inhalte nur bedingt möglich.

LLM und Prompt

LLM-Model

Für die Bewertung der Neutralität von Bildungsinhalten wurde ein Large Language Model (LLM) verwendet. Das Modell, gpt-4o-mini (OpenAI), wurde ausgewählt, da es aufgrund seiner Effizienz und geringen Kosten eine praxisnahe Lösung darstellt. Das gleiche Experiment könnte auch mit anderen LLMs durchgeführt werden, allerdings können die Ergebnisse von Modell zu Modell variieren. Es wird davon ausgegangen, dass sogar mit dem gleichen Modell bei wiederholten Tests leicht unterschiedliche Ergebnisse auftreten könnten.

Promptentwicklung

Die Grundlage für den entwickelten Prompt war die redaktionelle Skala (0-5), die zur Bewertung der Neutralität von Bildungsinhalten auf der Plattform http://WirLernenOnline.de verwendet wird. Diese Skala reicht von 0 (manipulativ oder verfassungswidrig) bis 5 (vollständig neutral und wissenschaftlich fundiert). Der Prompt wurde so gestaltet, dass das LLM die Inhalte auf dieser Skala bewerten kann.

Um den Bewertungsprozess zu verbessern, wurde der Prompt auf dem OpenAI Playground mit dem Tool „Generate“ optimiert. Diese Optimierung fügte strukturierte Markdown-Formatierungen und Rückfragen zur Selbstreflexion hinzu, sodass das LLM seine Bewertung fundiert und nachvollziehbar gestalten konnte.

Der entwickelte Prompt dient nicht nur dazu, eine numerische Bewertung der Neutralität abzugeben, sondern fordert das LLM auch auf, eine kurze Begründung für die gewählte Bewertung zu liefern. Diese Begründung ermöglicht es, die Ergebnisse später zu überprüfen und die Entscheidungsfindung der KI nachzuvollziehen.

image-20241014-095716.png
Aufruf des Promptverbesserungs-Tools “Generate” im Chatbereich des OpenAI Playgrounds

Finaler Prompt:

Bewerte die Neutralität und Verfassungskonformität eines Bildungsinhalts auf einer Skala von 0 bis 5 anhand der folgenden Kriterien. Berücksichtigen Sie aktuelle Diskussionen über Menschenrechte, das Grundgesetz der Bundesrepublik Deutschland und die Anforderungen an schulische Bildung. Begründen Sie die Bewertung ausführlich, indem Sie erklären, warum Sie sich für den gewählten Wert entschieden haben und warum andere Werte nicht zutreffen. ## Bewertungskriterien - **0 (manipulativ oder verfassungswidrig):** Der Text enthält manipulative Aussagen, die darauf abzielen, den Leser in eine bestimmte Richtung zu drängen. Der Text verstößt gegen verfassungsrechtliche Grundprinzipien, wie die Achtung der Menschenwürde oder demokratische Grundwerte (z. B. Förderung von Hassrede, Diskriminierung, Gewalt oder Verherrlichung verfassungswidriger Symbole). - **1 (unneutral oder problematisch):** Der Text zeigt deutliche Anzeichen von Einseitigkeit oder Voreingenommenheit. Inhalte sind zwar verfassungskonform, aber sie verletzen möglicherweise das Neutralitätsgebot, indem sie eine extreme oder engstirnige Sichtweise auf sensible Themen wie Politik, Religion, Menschenrechte, Sexualität oder Identität vertreten, ohne Alternativen oder Gegensätze zu beleuchten. - **2 (ideologisch eingefärbt, aber verfassungskonform):** Der Text ist von einer bestimmten ideologischen Ausrichtung geprägt, aber die Inhalte sind verfassungskonform und korrekt. Es wird jedoch nur eine Seite des Themas beleuchtet, und es fehlen ausgewogene Perspektiven. - **3 (ideologisch eingefärbt, aber transparent und pluralistisch):** Der Text hat eine erkennbare ideologische Ausrichtung, aber diese wird transparent gemacht. Der Autor stellt offen dar, dass es alternative Perspektiven gibt, die ebenfalls verfassungskonform sind. Der Inhalt wahrt das Gebot der Pluralität, wie es in der schulischen Bildung gefordert wird. - **4 (neutrale und ausgewogene Formulierung):** Der Text verwendet eine sachliche und ausgewogene Formulierung ohne erkennbare ideologische Voreingenommenheit. Er beleuchtet das Thema von verschiedenen verfassungskonformen Standpunkten und berücksichtigt Menschenrechte und demokratische Werte, wie sie im Grundgesetz verankert sind. - **5 (neutrale Formulierung von einem unabhängigen, wissenschaftlich fundierten Autor):** Der Text ist vollständig neutral formuliert, ohne ideologische oder politische Voreingenommenheit. Er stammt von einem nachweislich unabhängigen und wissenschaftlich fundierten Autor oder einer Institution, die keine politischen oder ideologischen Interessen vertritt. Der Inhalt entspricht höchsten Standards der Verfassungstreue, Menschenrechte und Anforderungen der Schulbildung. # Steps 1. **Analysiere den Text:** Identifizieren Sie alle relevanten Informationen und Aspekte, die auf Neutralität und Verfassungskonformität hin überprüft werden müssen. 2. **Bewerten Sie anhand der Skala:** Wählen Sie den zutreffenden Wert von 0 bis 5 basierend auf Ihrer Analyse. 3. **Begründung:** Erläutern Sie Ihre Bewertung. Begründen Sie in maximal drei Sätzen, warum Sie sich für diesen Wert entschieden haben. Gehen Sie darauf ein, warum andere Werte nicht passend sind. # Output Format - Eine einzelne Zahl von 0 bis 5. - Eine nachfolgende Begründung in maximal 3 Sätzen. # Beispiele **Input:** Text über das Grundgesetz der Bundesrepublik Deutschland. **Output:** 4 "Der Text beinhaltet eine sachliche und ausgewogene Formulierung verschiedener verfassungskonformer Standpunkte und respektiert demokratische Werte. Er vermeidet extreme Sichtweisen und beleuchtet diverse Perspektiven. Andere Werte treffen nicht zu, da keine einseitige ideologische Ausrichtung erkennbar ist."

Analyse des Testdatensatzes

Die Bildungsinhalte, die in diesem Test bewertet wurden, stammen von der Plattform http://WirLernenOnline.de. Der Fokus lag darauf, die KI-Bewertungen mit den redaktionellen Neutralitätsbewertungen zu vergleichen, um festzustellen, ob das LLM in der Lage ist, ähnliche Bewertungen vorzunehmen.

Die Bildungsinhalte sind vorwiegend dem Bereich Schulbildung zuzuordnen und auf der Neutralitäts-Skala hoch bewertet (4 bis 5). Dies lässt sich durch das redaktionelle einpflegen der Inhalte erklären.

Verteilung der Daten

Ein Großteil der Datensätze ist den Disziplinen: Informatik, Chemie, Physik, Mathematik und Darstellendes Spiel zuzuordnen.

Fast alle Inhalte wurden auf der Skala mit 4 oder 5 bewertet, was jedoch im Rahmen der Erwartungen liegt, da von Redaktionen gepflegte Inhalte von eher besserer Qualität sind.

Analyse der Textqualität

Da die Beschreibungs- und Volltexte die Grundlage der Bewertung bildeten, wurden diese hinsichtlich ihrer Qualität bewertet.

Die durchschnittliche Zeichenlänge der Volltexte beträgt etwa 860 Zeichen, während die Kurzbeschreibungen im Schnitt nur 228 Zeichen umfassen. Dieser signifikante Unterschied spiegelt wider, dass die Volltexte eine detailliertere und umfassendere Darstellung der Inhalte bieten, während die Kurzbeschreibungen nur die wesentlichen Informationen in verdichteter Form wiedergeben.

Allerdings zeigte sich, das die Beschreibungstexte im Vergleich zu den Volltexten weniger emotional gestaltet sind (Sentiment-Analyse) und mit geringerer formaler Bildung zu verstanden werden können (SMOG-Index).

Textanalyse der Beschreibungstexte

Textanalyse Volltexte

Testdurchführung

Für die Testdurchführung wurde ein Python-Script entwickelt, das die Beschreibungs- und Volltexte der Bildungsdatensätze von http://WirLernenOnline.de nutzt, um eine KI-basierte Bewertung der Neutralität durchzuführen.

Das Script verknüpfte die im JSON-Format vorliegenden Daten mit dem speziell entwickelten Prompt und führte die Bewertungen der Inhalte durch ein LLM (Large Language Model) aus.

Aufbau des Tests

Der Test wurde in zwei Testreihen durchgeführt:

  1. Testreihe 1 verwendete die Beschreibungstexte der Bildungsinhalte, um die KI-gestützte Bewertung durchzuführen.

  2. Testreihe 2 basierte auf den von den Webseiten extrahierten Volltexten, die eine umfassendere inhaltliche Analyse ermöglichten.

Testergebnisse

Testergebnisse mit Beschreibungstexten

Alle Metriken im Überblick (Beschreibungstexte):

  • Precision: 0.59

  • F1 Score: 0.55

  • Mean Absolute Error (MAE): 0.62

  • Mean Squared Error (MSE): 1.10

  • Root Mean Squared Error (RMSE): 1.05

  • R² Score: -3.48

  • Pearson-Korrelation: -0.02

  • Durchschnittliche Abweichung: 0.62

Testergebnisse mit Volltexten

Alle Metriken im Überblick (Volltexte):

  • Precision: 0.58

  • F1 Score: 0.49

  • Mean Absolute Error (MAE): 0.92

  • Mean Squared Error (MSE): 2.57

  • Root Mean Squared Error (RMSE): 1.60

  • R² Score: -9.48

  • Pearson-Korrelation: -0.13

  • Durchschnittliche Abweichung: 0.92

Hinweise zu den Metriken

  • Precision misst, wie genau die positiven Vorhersagen des Modells sind. Ein Wert von 0.85 bedeutet, dass 85% der als positiv vorhergesagten Fälle tatsächlich korrekt waren, während 15% falsch positive Vorhersagen waren.

  • F1 Score ist das harmonische Mittel von Precision und Recall und gibt ein ausgewogenes Maß der Modellleistung. Ein F1 Score von 0.75 zeigt, dass das Modell eine gute Balance zwischen Genauigkeit (Precision) und Vollständigkeit (Recall) der Vorhersagen findet.

  • Mean Absolute Error (MAE) gibt den durchschnittlichen absoluten Unterschied zwischen den vorhergesagten und den tatsächlichen Werten an. Ein MAE von 2.3 zeigt, dass die Vorhersagen im Durchschnitt um 2.3 Einheiten (z. B. Punkte) vom tatsächlichen Wert abweichen.

  • Mean Squared Error (MSE) misst den Durchschnitt der quadrierten Fehler. Ein Wert von 10 bedeutet, dass größere Fehler stärker betont werden, und ein niedriger MSE zeigt eine gute Modellleistung an.

  • Root Mean Squared Error (RMSE) ist die Quadratwurzel des MSE und gibt den Fehler in derselben Einheit wie die Zielvariable an. Ein RMSE von 3.2 zeigt, dass der durchschnittliche Fehler bei etwa 3.2 Einheiten (z. B. Punkten) liegt.

  • R² Score misst, wie gut die Varianz der Zielvariable durch das Modell erklärt wird. Ein R² von 0.92 bedeutet, dass das Modell 92% der Varianz erklären kann, was auf eine gute Passung hinweist.

  • Pearson-Korrelation misst die lineare Beziehung zwischen den vorhergesagten und den tatsächlichen Werten. Ein Wert von 0.88 zeigt eine starke positive lineare Korrelation, d. h., die Vorhersagen folgen den tatsächlichen Werten sehr gut.

  • Durchschnittliche Abweichung zeigt den durchschnittlichen Unterschied zwischen den AI-bewerteten und den Originalwerten an. Eine Abweichung von 1.1 bedeutet, dass die KI-Bewertungen im Durchschnitt um 1.1 Einheiten vom tatsächlichen Wert abweichen, was auf eine hohe Übereinstimmung hindeutet.

Analyse der Sonderfälle

In der Analyse der Testdurchführung wurden spezielle Datensätze identifiziert (“Sonderfälle”), bei denen die KI-basierte Bewertung der Neutralität signifikant von den redaktionellen Bewertungen abwich. Diese Abweichungen betrugen in den Sonderfällen mindestens 2 Punkte auf der Neutralitätsskala, was auf potenzielle Herausforderungen oder Missverständnisse in der KI-Bewertung hinweist.

Zwei Beispiele für Sonderfälle aus dem Testdurchlauf mit den Beschreibungstexten:

{ "properties_cclom:general_description": "\"Emilia Galotti\" \u2013 die Zusammenfassung als Chat! Lisa erkl\u00e4rt dir, was in Gotthold Ephraim Lessings b\u00fcrgerlichem Trauerspiel Emilia Galotti passiert und wie die Figuren zueinander stehen. ", "original_neutralness_score": 2, "ai_neutralness_score": 4, "ai_reasoning": "Der Text bietet eine ausgewogene Darstellung des Inhalts von Lessings 'Emilia Galotti', ohne eine spezifische ideologische Voreingenommenheit zu zeigen. Er beleuchtet die Charaktere und Aspekte des Werkes auf eine sachliche Weise und tr\u00e4gt dazu bei, das Verst\u00e4ndnis f\u00fcr die gesellschaftlichen und moralischen Fragen zu f\u00f6rdern, die im Drama behandelt werden. H\u00f6here Werte sind nicht zutreffend, da der Text nicht aus einer wissenschaftlichen Quelle stammt und somit nicht die h\u00f6chsten Standards der Neutralit\u00e4t und Unabh\u00e4ngigkeit erf\u00fcllt." }, { "properties_cclom:general_description": "1882 l\u00e4sst Nietzsche in seiner fr\u00f6hlichen Wissenschaft einen \u201etollen Menschen\" feststellen, dass Gott mit der Aufkl\u00e4rung sein Ende gefunden habe. Nun m\u00f6ge der Mensch Gottes Stelle einnehmen. Ein Jahr darauf fordert Nietzsches Zarathustra, der sinnlose, weil leistungsm\u00fcde oder -schwache Mensch m\u00fcsse vom \u00dcbermenschen abgel\u00f6st werden. Der Mensch kranke an seinem Geiz mit der S\u00fcnde. In Nietzsches Antichrist schlie\u00dflich wird das Programm kurz vor Nietzsches geistiger Umnachtung 1888 entfaltet. Er beginnt mit: \"Die Schwachen und Mi\u00dfrathnen sollen zu Grunde gehn: erster Satz unsrer Menschenliebe. Und man soll ihnen noch dazu helfen\" (vgl. AC I,2). ", "original_neutralness_score": 3, "ai_neutralness_score": 1, "ai_reasoning": "Der Text zeigt eine deutliche ideologische Voreingenommenheit, indem er Nietzsches Ansichten zitiert, die menschenverachtende Tendenzen reflektieren. Dies steht im Widerspruch zu den Werten des Grundgesetzes und dem Prinzip der Menschenw\u00fcrde. Eine kritische Auseinandersetzung mit diesen Ideen fehlt, und somit wird das Neutralit\u00e4tsgebot verletzt." },

Ein Auszug der Sonderfälle (ca. 50%) wurde mit dem auf Logik trainierten LLM Model gpt-o1-mini analysiert. Dabei wurden folgende Gründe für die Abweichungen genannt:

  1. Einseitige Perspektive:

    • Beispiel: Texte, die sich nur auf eine Methode (z.B. Ölfleckversuch zur Atomdurchmesserbestimmung) konzentrieren, ohne alternative Ansätze zu erwähnen.

  2. Mangel an Pluralismus und Ausgewogenheit:

    • Beispiel: Erklärungen zu technischen Themen wie Wechselstromkreisen ohne Bezug auf unterschiedliche Anwendungen oder gesellschaftliche Implikationen.

  3. Potenzial für Fehlinterpretationen oder Manipulation:

    • Beispiel: Chemische Experimente ohne Hinweise auf Sicherheitsmaßnahmen, was zu Missverständnissen oder Gefahren führen könnte.

  4. Einseitige Darstellung von Experimenten:

    • Beispiel: Stumme Experimentiervideos, die ohne erklärenden Kontext präsentiert werden und somit pädagogische Tiefe fehlen lassen.

  5. Technische Inhalte ohne Kontextualisierung:

    • Beispiel: Förderung spezifischer Softwarelösungen (z.B. GeoGebra für Binomialverteilung) ohne Erwähnung alternativer Methoden.

  6. Fehlende ethische und gesellschaftliche Implikationen:

    • Beispiel: Diskussion von E-Mail-Sicherheit ohne Berücksichtigung der gesellschaftlichen Bedeutung von Datenschutz.

Manuelle Einzelfallprüfung von Beispielen:

{ "properties_cclom:general_description": "So wie die Natur ver\u00e4ndert sich f\u00fcr uns scheinbar auch der Himmel im Laufe eines Jahres: jedes Quartal hat seine typischen Sternbilder. Um sich in jeder Jahreszeit am Himmel zu orientieren, gibt es vier Formationen, die keine Sternbilder sind, aber \u00e4hnlich wie\u2026", "original_neutralness_score": 5, "ai_neutralness_score": 2, "ai_reasoning": "Der Text ist von einer bestimmten ideologischen Ausrichtung gepr\u00e4gt, jedoch bleibt er verfassungskonform und korrekt. Es wird haupts\u00e4chlich eine Seite des Themas beleuchtet, ohne dass alternative Perspektiven ausreichend ber\u00fccksichtigt werden. Daher entspricht er nicht den Anforderungen f\u00fcr einen h\u00f6heren Wert, da er eine bestimmte Sichtweise nicht transparent macht." },
  • Auswertung: Es ist korrekt, das keine alternativen Perspektiven angeboten werden (ist hier auch schwierig). Eine ideologische Ausrichtung ist schwer erkennbar.

Auswertung der Ergebnisse

Die Untersuchung der Fähigkeit eines Large Language Models (LLM) zur Bewertung der Neutralität von Bildungsinhalten führte zu einigen aufschlussreichen Ergebnissen. Insgesamt zeigte das LLM in beiden Testreihen – basierend auf Beschreibungstexten und Volltexten – eine solide Leistungsfähigkeit, die mit den redaktionellen Bewertungen vergleichbar war, aber auch einige spezifische Herausforderungen offenbarte.

Leistung des LLM im Vergleich zu menschlichen Bewertungen

  1. Beschreibungstexte:

    • Die durchschnittliche absolute Abweichung (MAE) lag bei 0,62 Punkten, was eine relativ hohe Übereinstimmung mit den menschlichen Bewertungen signalisiert. Über 50 % der Bewertungen stimmten in einem engen Bereich mit den redaktionellen Einschätzungen überein.

    • Die KI zeigte eine ähnliche Verteilung der Neutralitätsscores wie die menschlichen Bewertungen, was darauf hindeutet, dass die Beschreibungstexte bereits eine hohe Informationsdichte enthalten, die eine präzise Bewertung erlaubt. Möglicherweise enthalten die Beschreibungstexte bereits Hinweise auf die Qualität, die von den Redaktionen eingearbeitet wurden.

  2. Volltexte:

    • Die Volltexte waren im Schnitt viermal so lang wie die Beschreibungstexte und stellten eine größere Herausforderung für die KI dar. Die durchschnittliche absolute Abweichung lag bei 0,92 Punkten. Dies könnte darauf hindeuten, dass die Fülle an Informationen oder aber auch die Qualität der Volltexte die Neutralitätsbewertung erschwert.

    • Auffällig war die Tatsache, dass die Volltexte eine höhere Betonung von Gefühlen und höhere Anforderungen an deren Verständnis aufwiesen, was möglicherweise zu größeren Abweichungen in der Bewertung führte.

  3. Sonderfälle:

    • In den Sonderfällen, bei denen die KI-Bewertung um mindestens 2 Punkte von der redaktionellen Bewertung abwich, zeigte sich, dass die KI besonders auf einseitige Perspektiven und fehlenden Pluralismus aufmerksam reagierte. Dies führte in einigen Fällen zu strikteren Bewertungen, insbesondere bei technischen oder wissenschaftlichen Inhalten ohne breitere Kontextualisierung.

    • Diese Abweichungen machen deutlich, dass das LLM in der Lage ist, auf Aspekte aufmerksam zu machen, die menschliche Redaktionen eventuell weniger stark gewichtet haben. Besonders hervorzuheben ist die Fähigkeit des Modells, Risiken für Missverständnisse oder Manipulationen in den Texten zu erkennen.

Vergleich der Metriken

Insgesamt zeigten die Metriken (Precision, F1-Score, MAE, MSE, R²) einen akzeptablen Grad an Übereinstimmung, wobei die Beschreibungstexte besser abschnitten als die Volltexte. Dies deutet darauf hin, dass kürzere, präziser formulierte Texte für die KI einfacher zu bewerten sind als lange, komplexe Volltexte.

Fazit

Das LLM konnte in einem breiten Spektrum von Bildungsinhalten eine angemessene Bewertung der Neutralität liefern. Die erzielten Ergebnisse zeigen, dass es als Unterstützung für redaktionelle Bewertungsprozesse wertvolle Einblicke bieten kann, insbesondere bei der Identifikation von potenziell einseitigen oder ideologisch geprägten Inhalten.

Gleichzeitig weist die Analyse darauf hin, dass die KI bei längeren, komplexeren Volltexten größere Schwierigkeiten hat, was weiteren Forschungsbedarf nahelegt. Weitere Tests könnten untersuchen, ob und wie das LLM durch zusätzliche Trainingseinheiten oder feinere Anpassungen des Prompts (z.B. durch eine optimierte Gewichtung von Aspekten wie Pluralismus) besser in der Lage ist, die volle inhaltliche Tiefe und den pluralistischen Anspruch von Volltexten zu erfassen.

Es zeigt sich auch, dass die LLM-Bewertung auf bestimmte Aspekte der Neutralität stärker fokussiert, wie etwa die Vielfalt der Perspektiven und das Risiko für Fehlinterpretationen. Diese Fokusverschiebung könnte zu wertvollen Ergänzungen im Prozess der Neutralitätsbewertung beitragen, sollte jedoch immer im Kontext der redaktionellen Standards interpretiert werden.

Anlage

Quellen für die Promptentwicklung

Tool für die Volltextgenerierung

Tool für die Filterung, Analyse und Bestimmung der Textqualität

Tool für die Bewertung der Neutralität

Python-Script zur Durchführung des Tests und der Bewertung mittels LLM