Table of Contents

minLevel	1
maxLevel	6
outline	false
style	none
type	list
printable	true

Abstract

In dieser Untersuchung wurde getestet, ob ein Large Language Model (LLM) zur Bewertung der Neutralität von Bildungsinhalten genutzt werden kann.

Für die Bewertung wurde ein theoriegeleitetes Bewertungssystem basierend auf 24 Fragen genutzt und mit Techniken ergänzt, die Halluzination reduzieren sollen wie z.B. Selbstreflektion durch Begründung der Antwort und ein Überzeugungswert für die sichere Beantwortung einer Frage.

Dabei wurden 2000 Datensätze, bestehend aus Beschreibungstexten und Volltexten, mithilfe eines angepassten Prompts durch ein KI-Modell bewertet und die Ergebnisse mit bereits vorhandenen redaktionellen Bewertungen verglichen.

Die Analyse zeigte, dass die KI-Bewertung, insbesondere bei kürzeren Beschreibungstexten, eine hohe Übereinstimmung mit den menschlichen Bewertungen aufwies (MAE = 0,62). Bei den längeren und komplexeren Volltexten hingegen fiel die Abweichung größer aus (MAE = 0,92). Mögliche Ursachen für das schlechtere Abschneiden der Volltexte können Bewertungen sein, die von den Fachredaktionen in die Texte eingeflossen sind oder eine höhere Textqualität gegenüber Volltexte (trotz geringerer Zeichenlänge). Dennoch zeigt die Untersuchung weiteren Forschungsbedarf auf, insbesondere in Bezug auf die Erfassung von komplexen Inhalten in Volltexten und die Entwicklung eines besseren Messinstruments.

Erstellung des Test-Datensatzes

Die Grundlage dieser Untersuchung bildeten 2000 Datensätze von Bildungsinhalten, die von der Plattform http://WirLernenOnline.de abgerufen wurden und für die bereits redaktionelle Bewertungen zur Neutralität vorlagen.

Diese wurden auf einer Skala von 0 bis 5 eingeordnet, wobei 0 für manipulative oder verfassungswidrige Inhalte und 5 für vollständig neutrale und wissenschaftlich fundierte Inhalte steht.

...

Abruf der Rohdaten

...

Anreicherung der Rohdaten mit Volltexten

In den Datensätzen sind Beschreibungstexte der Bildungsinhalte enthalten. Um einen Vergleich mit Volltexten durchführen zu können, wurden die URL aus dem Feld: ccm:wwwurl ausgelesen und die Inhalte der Webseiten extrahiert.

Zum Einsatz kam hierbei die Python Bibliothek Goose3, die intern BeautifulSoup nutzt und überflüssige Textbestandteile z.B. zur Struktur der Webseite mittels NLP-Techniken entfernt. Das Script wird im Anhang aufgeführt.

Die Volltexte, sowie Zusammenfassungen und Keywords wurden dann als additional_data in die JSON gespeichert und den Datensätzen zugeordnet.

Bei Datensätzen, für die Goose3 keinen Volltext generieren konnte (z.B. aufgrund eines sehr kleinen Textkorpus), wurden die Zusammenfassungen genutzt, die von Goose3 aus allen verfügbaren Infos der Webseiten gebildet werden.

Filterung der Rohdaten

...

Filterung der Rohdaten: Die Rohdaten wurden gefiltert, um sicherzustellen, dass alle relevanten Felder gefüllt und die Mindestlänge der für die Bewertung genutzten Textfelder gewährleistet ist. Dabei wurden folgende Kriterien angewendet:

Entfernt wurden Datensätze, bei denen folgende Felder leer waren:
- properties.cclom:general_description (Beschreibungstexte)
- additional_data.full_text (Volltexte)
- properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)
Zusätzlich wurden Datensätze ausgeschlossen, deren Textfelder (Beschreibungstexte und Volltexte) weniger als 60 Zeichen umfassen, um ausreichend Material für eine sinnvolle Bewertung zu haben.
- properties.cclom:general_description (Beschreibungstexte)
- additional_data.full_text (Volltexte)
Schließlich wurde die Anzahl der Datensätze auf 2000 reduziert und normalisiert. Dabei wurden folgende Felder zur gleichmäßigen Verteilung einbezogen:
- properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)
- properties.ccm:taxonid (Disziplinen)
  (Disziplinen) berücksichtigt, um eine ausgewogene Stichprobe der Bildungsinhalte aus unterschiedlichen Fachbereichen zu gewährleisten. Ein Round-Robin-Verfahren wurde angewandt, um sicherzustellen, dass die Disziplinen gleichmäßig vertreten sind.

Eine Gleichverteilung ist jedoch auf Grund der vorübergehend gut bewerteten Inhalte nur bedingt möglich.

LLM und Prompt

LLM-Model

...

Promptentwicklung

Grundlage für die Promptentwicklung waren die zuvor ausgearbeiteten Aspekte der Neutralität von Bildungsinhalten. Zu den 12 ermittelten Aspekte wurden je 2 Fragen operationalisiert und gewichtet:

...

Frage Nr.

...

Frage

...

Gewichtung

...

1

...

Werden verschiedene Perspektiven auf das Thema umfassend und gleichwertig präsentiert?

...

0.05

...

2

...

Werden die unterschiedlichen Perspektiven neutral und ohne Vorurteile beschrieben?

...

0.05

...

3

...

Bietet das Material den Lernenden die Möglichkeit, eine eigene Meinung zu bilden, ohne sie zu beeinflussen?

...

0.05

...

4

...

Wird auf manipulative Sprache und emotionale Beeinflussung konsequent verzichtet?

...

0.05

...

5

...

Sind alle Informationen durch glaubwürdige und verlässliche Quellen belegt?

...

0.05

...

6

...

Werden alternative wissenschaftliche Theorien fair und nachvollziehbar dargestellt?

...

0.05

...

7

...

Werden politische Positionen ausgewogen und ohne Präferenz präsentiert?

...

0.05

...

8

...

Vermeidet das Material bewusst die Bevorzugung bestimmter politischer Parteien oder Ideologien?

...

0.05

...

9

...

Regt das Material die Lernenden dazu an, kritisch zu hinterfragen und eigenständig zu analysieren?

...

0.05

...

10

...

Werden Methoden zur strukturierten Analyse und Bewertung von Informationen klar vermittelt?

...

0.05

...

11

...

Sind die demokratischen Grundwerte verständlich und objektiv erklärt?

...

0.025

...

12

...

Wird die Reflexion demokratischer Prinzipien angeregt, ohne Vorgaben zu machen?

...

0.025

...

13

...

Werden praktische Beispiele und Übungen neutral und ohne ideologische Voreingenommenheit dargestellt?

...

0.025

...

14

...

Wird die Anwendung des Gelernten in der Praxis ohne ideologische Färbung gefördert?

...

0.025

...

15

...

Ist das Material altersgerecht aufbereitet und berücksichtigt es den Entwicklungsstand der Lernenden?

...

0.025

...

16

...

Berücksichtigt das Material verschiedene Lernstile und Bedürfnisse der Lernenden?

...

0.025

...

17

...

Werden die Inhalte neutral und ohne persönliche Wertungen des Autors dargestellt?

...

0.05

...

18

...

Beeinflussen persönliche Überzeugungen des Autors nicht die Art und Weise der Darstellung?

...

0.05

...

19

...

Wird bewusst darauf verzichtet, eine bestimmte Weltanschauung als einzig gültig darzustellen?

...

0.05

...

20

...

Werden alternative Sichtweisen respektiert und als legitime Optionen dargestellt?

...

0.05

...

21

...

Bietet das Material Strategien zur Erkennung von Fehlinformationen und Desinformation?

...

0.05

...

22

...

Wird die Bedeutung und der Einfluss von Fehlinformationen kritisch thematisiert?

...

0.05

...

23

...

Sind die dargestellten Informationen aktuell und auf dem neuesten Stand?

...

0.025

...

24

...

Werden relevante aktuelle Ereignisse, wenn notwendig, objektiv in die Inhalte eingebunden?

...

0.025

Jede Frage führt zu einer Bewertung, die tendenziell zustimmend oder ablehend ist. Eine kleinere Skala macht die spätere Überprüfung leichter. Zusätzlich wird auch der Fall beachtet, wenn es keine Informationen für die Bewertung der Aussage gibt.

Zusätzlich soll der Prompt eine kurze Begründung für die Antwort auf jede Frage einfordern, um diese später überprüfen zu können und eine begründete Vorgehensweise des LLM zu fördern.

Neben dem Scoring soll auch noch ein Überzeugungs-Wert gebildet werden, mit dem das LLM einschätzt, wie sicher es die Frage beantworten konnte.

4er Likert-Skala:

1 Punkt: Sehr unsicher – Ich bin mir kaum sicher, ob meine Antwort korrekt ist.
2 Punkte: Unsicher – Ich habe Zweifel, bin aber der Meinung, dass meine Antwort möglicherweise richtig ist.
3 Punkte: Sicher – Ich bin mir größtenteils sicher, dass meine Antwort korrekt ist.
4 Punkte: Sehr sicher – Ich bin vollständig überzeugt, dass meine Antwort richtig ist.
"N/A" für nicht anwendbare oder nicht bewertbare Aussagen.

Es sollen also keine Antworten keine Antworten gebildet werden, wenn keine Informationen vorliegen oder deren Beanwortung unsicher ist.

Um den Bewertungsprozess zu verbessern, wurde der Prompt auf dem OpenAI Playground mit dem Tool „Generate“ optimiert. Diese Optimierung fügte strukturierte Markdown-Formatierungen und Rückfragen zur Selbstreflexion hinzu, sodass das LLM seine Bewertung fundiert und nachvollziehbar gestalten konnte.

...

Finaler Prompt:

Code Block

Bitte bewerten Sie den folgenden Bildungsinhalt anhand der festgelegten Fragen, um dessen Neutralität zu beurteilen.

**Anleitung:**

1. Lesen Sie den Text sorgfältig.
2. Bewerten Sie jede der folgenden Fragen mit **1** bis **4** Punkten.
3. Geben Sie für jede Frage an, wie sicher Sie sich bei Ihrer Bewertung sind (**1** bis **4** Punkten).
4. Geben Sie für jede Frage eine Begründung von **einem Satz**.
5. Verwenden Sie "**N/A**", wenn die Informationen fehlen oder die Frage nicht anwendbar ist.
6. Antworten Sie ausschließlich im JSON-Format ohne zusätzlichen Text oder Präfix.

**Bewertungsskala:**

- **1 Punkt**: Stimme überhaupt nicht zu
- **2 Punkte**: Stimme eher nicht zu
- **3 Punkte**: Stimme eher zu
- **4 Punkte**: Stimme voll und ganz zu
- **N/A**: Nicht anwendbar oder Informationen fehlen

**Konfidenzskala:**

- **1 Punkt**: Sehr unsicher
- **2 Punkte**: Unsicher
- **3 Punkte**: Sicher
- **4 Punkte**: Sehr sicher
- **N/A**: Nicht anwendbar oder Informationen fehlen

**Fragen:**

1. Werden verschiedene Perspektiven auf das Thema umfassend und gleichwertig präsentiert?
2. Werden die unterschiedlichen Perspektiven neutral und ohne Vorurteile beschrieben?
3. Bietet das Material den Lernenden die Möglichkeit, eine eigene Meinung zu bilden, ohne sie zu beeinflussen?
4. Wird auf manipulative Sprache und emotionale Beeinflussung konsequent verzichtet?
5. Sind alle Informationen durch glaubwürdige und verlässliche Quellen belegt?
6. Werden alternative wissenschaftliche Theorien fair und nachvollziehbar dargestellt?
7. Werden politische Positionen ausgewogen und ohne Präferenz präsentiert?
8. Vermeidet das Material bewusst die Bevorzugung bestimmter politischer Parteien oder Ideologien?
9. Regt das Material die Lernenden dazu an, kritisch zu hinterfragen und eigenständig zu analysieren?
10. Werden Methoden zur strukturierten Analyse und Bewertung von Informationen klar vermittelt?
11. Sind die demokratischen Grundwerte verständlich und objektiv erklärt?
12. Wird die Reflexion demokratischer Prinzipien angeregt, ohne Vorgaben zu machen?
13. Werden praktische Beispiele und Übungen neutral und ohne ideologische Voreingenommenheit dargestellt?
14. Wird die Anwendung des Gelernten in der Praxis ohne ideologische Färbung gefördert?
15. Ist das Material altersgerecht aufbereitet und berücksichtigt es den Entwicklungsstand der Lernenden, ohne dabei inhaltlich eine bestimmte Sichtweise zu bevorzugen?
16. Berücksichtigt das Material verschiedene Lernstile und Bedürfnisse der Lernenden, ohne eine Methode als die einzig richtige darzustellen?
17. Werden die Inhalte neutral und ohne persönliche Wertungen des Autors dargestellt?
18. Beeinflussen persönliche Überzeugungen des Autors nicht die Art und Weise der Darstellung?
19. Wird bewusst darauf verzichtet, eine bestimmte Weltanschauung als einzig gültig darzustellen?
20. Werden alternative Sichtweisen respektiert und als legitime Optionen dargestellt?
21. Bietet das Material Strategien zur Erkennung von Fehlinformationen und Desinformation?
22. Wird die Bedeutung und der Einfluss von Fehlinformationen kritisch thematisiert?
23. Sind die dargestellten Informationen aktuell und auf dem neuesten Stand?
24. Werden relevante aktuelle Ereignisse, wenn notwendig, objektiv in die Inhalte eingebunden?

**Bitte geben Sie Ihre Bewertungen in folgendem Format zurück:**

{
  "questions": [
    {
      "question": "Unterschiedliche Perspektiven und Standpunkte werden präsentiert.",
      "rating": 3,
      "confidence": 4,
      "justification": "Der Text präsentiert mehrere Sichtweisen auf das Thema (Textstelle: ... den Aspekt kann man so und so deuten ...)."
    },
    {
      "question": "Diese Perspektiven werden sachlich dargestellt (Textstelle: ... die Schrittfolge ist wissenschaftlich gesichert ...).",
      "rating": "N/A",
      "confidence": "N/A",
      "justification": "Informationen fehlen."
    },
    ...
  ]
}

Berechnungs des Scoring

Gewichtete Rohpunktzahl bestimmen

Multiplikation der Bewertung (Likert 1 bis 4) mit der Gewichtung je Aussage
- Aussage 1: 4 Punkte
- Berechnung: 4 x 0,05 = 0,2
Bildung der Summe aller gewichteten Werte
- Berechnung: 0,2 + …
Fragen, für die N/A bewertet wurde, werden nicht berücksichtigt

Gewichtete Maximalpunktzahl bestimmen

Multiplikation der maximalen Punktzahl (entspricht 4 auf der Likert-Skala) mit der Gewichtung je Aussage
- Aussage 1: 4 Punkte
- Berechnung: 4 x 0,05 = 0,2
Bildung der Summe aller gewichteten Maximalwerte
- Berechnung: 0,2 + …
Fragen, für die N/A bewertet wurde, werden nicht berücksichtigt

Bildung des Gesamtscore

Roh- und Maximalpunkte werden ins Verhältnis gesetzt und auf die Skala von 0 bis 5 normalisiert
Berechnung: ( Gewichtete Rohpunktzahl / Gewichtete Maximalpunktzahl ) * 5
falls keine Fragen anwendbar sind, wird der Score auf 0 gesetzt

Einbezug der Überzeugung

es wurden nur Antworten in die Bewertung einbezogen, bei denen der Überzeugungswert 4 (sehr sicher) zurückgegeben wurde

Beispiel für die Score-Berechnung:

Frage 1: Score = 4, Überzeugung = 4 → volle Berücksichtigung (4 Punkte x Gewichtung)
Frage 2: Score = 3, Überzeugung = 2 → nicht berücksichtigt (0 Punkte, da niedrige Überzeugung)

Normalisierung auf ganze Zahlen (Punkte)

Die Normalisierung der Dezimalzahlen auf ganze Punktzahlen (0 bis 5) erfolgte auf Basis dieser Matrix:

...

Endpunktzahl

...

Dezimalzahl *

...

Erfüllungsgrad

...

Beschreibung

...

5

...

>4 und <=5

...

≥ 90 %

...

Hervorragende Neutralität

...

4

...

>3 und <=4

...

≥ 70 % bis < 90 %

...

Gute Neutralität

...

3

...

>2 und <=3

...

≥ 50 % bis < 70 %

...

Durchschnittliche Neutralität

...

2

...

>1 und <=2

...

≥ 30 % bis < 50 %

...

Unterdurchschnittliche Neutralität

...

1

...

>0 und <=1

...

≥ 10 % bis < 30 %

...

Mangelnde Neutralität

...

0

...

0

...

< 10 %

...

Keine Neutralität

Analyse des Testdatensatzes

Die Bildungsinhalte, die in diesem Test bewertet wurden, stammen von der Plattform http://WirLernenOnline.de. Der Fokus lag darauf, die KI-Bewertungen mit den redaktionellen Neutralitätsbewertungen zu vergleichen, um festzustellen, ob das LLM in der Lage ist, ähnliche Bewertungen vorzunehmen.

Die Bildungsinhalte sind vorwiegend dem Bereich Schulbildung zuzuordnen und auf der Neutralitäts-Skala hoch bewertet (4 bis 5). Dies lässt sich durch das redaktionelle einpflegen der Inhalte erklären.

Verteilung der Daten

Ein Großteil der Datensätze ist den Disziplinen: Informatik, Chemie, Physik, Mathematik und Darstellendes Spiel zuzuordnen.

...

Fast alle Inhalte wurden auf der Skala mit 4 oder 5 bewertet, was jedoch im Rahmen der Erwartungen liegt, da von Redaktionen gepflegte Inhalte von eher besserer Qualität sind.

...

Analyse der Textqualität

Da die Beschreibungs- und Volltexte die Grundlage der Bewertung bildeten, wurden diese hinsichtlich ihrer Qualität bewertet.

Die durchschnittliche Zeichenlänge der Volltexte beträgt etwa 860 Zeichen, während die Kurzbeschreibungen im Schnitt nur 228 Zeichen umfassen. Dieser signifikante Unterschied spiegelt wider, dass die Volltexte eine detailliertere und umfassendere Darstellung der Inhalte bieten, während die Kurzbeschreibungen nur die wesentlichen Informationen in verdichteter Form wiedergeben.

Allerdings zeigte sich, das die Beschreibungstexte im Vergleich zu den Volltexten weniger emotional gestaltet sind und mit geringerer formaler Bildung zu verstanden werden können (SMOG-Index).

Textanalyse der Beschreibungstexte

...

Textanalyse Volltexte

...

Testdurchführung

Für die Testdurchführung wurde ein Python-Script entwickelt, das die Beschreibungs- und Volltexte der Bildungsdatensätze von http://WirLernenOnline.de nutzt, um eine KI-basierte Bewertung der Neutralität durchzuführen.

Das Script verknüpfte die im JSON-Format vorliegenden Daten mit dem speziell entwickelten Prompt und führte die Bewertungen der Inhalte durch ein LLM (Large Language Model) aus.

Aufbau des Tests

Der Test wurde in zwei Testreihen durchgeführt:

Testreihe 1 verwendete die Beschreibungstexte der Bildungsinhalte, um die KI-gestützte Bewertung durchzuführen.
Testreihe 2 basierte auf den von den Webseiten extrahierten Volltexten, die eine umfassendere inhaltliche Analyse ermöglichten.

Testergebnisse

Testergebnisse mit Beschreibungstexten

...

Evaluationsmetriken

Mean Absolute Error (MAE): 1.0
Mean Squared Error (MSE): 2.6975
Root Mean Squared Error (RMSE): 1.6424
R² Score: -10.002
Pearson-Korrelation: 0.1185

Evaluationsmetriken (Klassifikation mit gerundeten Werten)

Precision: 0.6004
F1-Score: 0.4973

Bereiche

Bereich der Originalscores: 2 bis 5
Bereich der vorhergesagten Scores: 0 bis 5.0

Auszug aus den Antworten

...

Testergebnisse mit Volltexten

Alle Metriken im Überblick (Volltexte):

…

Hinweise zu den Metriken

Precision misst, wie genau die positiven Vorhersagen des Modells sind. Ein Wert von 0.85 bedeutet, dass 85% der als positiv vorhergesagten Fälle tatsächlich korrekt waren, während 15% falsch positive Vorhersagen waren.
F1 Score ist das harmonische Mittel von Precision und Recall und gibt ein ausgewogenes Maß der Modellleistung. Ein F1 Score von 0.75 zeigt, dass das Modell eine gute Balance zwischen Genauigkeit (Precision) und Vollständigkeit (Recall) der Vorhersagen findet.
Mean Absolute Error (MAE) gibt den durchschnittlichen absoluten Unterschied zwischen den vorhergesagten und den tatsächlichen Werten an. Ein MAE von 2.3 zeigt, dass die Vorhersagen im Durchschnitt um 2.3 Einheiten (z. B. Punkte) vom tatsächlichen Wert abweichen.
Mean Squared Error (MSE) misst den Durchschnitt der quadrierten Fehler. Ein Wert von 10 bedeutet, dass größere Fehler stärker betont werden, und ein niedriger MSE zeigt eine gute Modellleistung an.
Root Mean Squared Error (RMSE) ist die Quadratwurzel des MSE und gibt den Fehler in derselben Einheit wie die Zielvariable an. Ein RMSE von 3.2 zeigt, dass der durchschnittliche Fehler bei etwa 3.2 Einheiten (z. B. Punkten) liegt.
R² Score misst, wie gut die Varianz der Zielvariable durch das Modell erklärt wird. Ein R² von 0.92 bedeutet, dass das Modell 92% der Varianz erklären kann, was auf eine gute Passung hinweist.
Pearson-Korrelation misst die lineare Beziehung zwischen den vorhergesagten und den tatsächlichen Werten. Ein Wert von 0.88 zeigt eine starke positive lineare Korrelation, d. h., die Vorhersagen folgen den tatsächlichen Werten sehr gut.
Durchschnittliche Abweichung zeigt den durchschnittlichen Unterschied zwischen den AI-bewerteten und den Originalwerten an. Eine Abweichung von 1.1 bedeutet, dass die KI-Bewertungen im Durchschnitt um 1.1 Einheiten vom tatsächlichen Wert abweichen, was auf eine hohe Übereinstimmung hindeutet.

Analyse der Sonderfälle

In der Analyse der Testdurchführung wurden spezielle Datensätze identifiziert (“Sonderfälle”), bei denen die KI-basierte Bewertung der Neutralität signifikant von den redaktionellen Bewertungen abwich. Diese Abweichungen betrugen in den Sonderfällen mindestens 2 Punkte auf der Neutralitätsskala, was auf potenzielle Herausforderungen oder Missverständnisse in der KI-Bewertung hinweist.

Zwei Beispiele für Sonderfälle aus dem Testdurchlauf mit den Beschreibungstexten:

Code Block

       {
            "properties_cclom:general_description": "\"Emilia Galotti\" \u2013 die Zusammenfassung als Chat! Lisa erkl\u00e4rt dir, was in Gotthold Ephraim Lessings b\u00fcrgerlichem Trauerspiel Emilia Galotti passiert und wie die Figuren zueinander stehen. ",
            "original_neutralness_score": 2,
            "ai_neutralness_score": 4,
            "ai_reasoning": "Der Text bietet eine ausgewogene Darstellung des Inhalts von Lessings 'Emilia Galotti', ohne eine spezifische ideologische Voreingenommenheit zu zeigen. Er beleuchtet die Charaktere und Aspekte des Werkes auf eine sachliche Weise und tr\u00e4gt dazu bei, das Verst\u00e4ndnis f\u00fcr die gesellschaftlichen und moralischen Fragen zu f\u00f6rdern, die im Drama behandelt werden. H\u00f6here Werte sind nicht zutreffend, da der Text nicht aus einer wissenschaftlichen Quelle stammt und somit nicht die h\u00f6chsten Standards der Neutralit\u00e4t und Unabh\u00e4ngigkeit erf\u00fcllt."
        },
        {
            "properties_cclom:general_description": "1882 l\u00e4sst Nietzsche in seiner fr\u00f6hlichen Wissenschaft einen \u201etollen Menschen\" feststellen, dass Gott mit der Aufkl\u00e4rung sein Ende gefunden habe. Nun m\u00f6ge der Mensch Gottes Stelle einnehmen. Ein Jahr darauf fordert Nietzsches Zarathustra, der sinnlose, weil leistungsm\u00fcde oder -schwache Mensch m\u00fcsse vom \u00dcbermenschen abgel\u00f6st werden. Der Mensch kranke an seinem Geiz mit der S\u00fcnde. In Nietzsches Antichrist schlie\u00dflich wird das Programm kurz vor Nietzsches geistiger Umnachtung 1888 entfaltet. Er beginnt mit: \"Die Schwachen und Mi\u00dfrathnen sollen zu Grunde gehn: erster Satz unsrer Menschenliebe. Und man soll ihnen noch dazu helfen\" (vgl. AC I,2). ",
            "original_neutralness_score": 3,
            "ai_neutralness_score": 1,
            "ai_reasoning": "Der Text zeigt eine deutliche ideologische Voreingenommenheit, indem er Nietzsches Ansichten zitiert, die menschenverachtende Tendenzen reflektieren. Dies steht im Widerspruch zu den Werten des Grundgesetzes und dem Prinzip der Menschenw\u00fcrde. Eine kritische Auseinandersetzung mit diesen Ideen fehlt, und somit wird das Neutralit\u00e4tsgebot verletzt."
        },

Ein Auszug der Sonderfälle (ca. 50%) wurde mit dem auf Logik trainierten LLM Model gpt-o1-mini analysiert. Dabei wurden folgende Gründe für die Abweichungen genannt:

Einseitige Perspektive:
- Beispiel: Texte, die sich nur auf eine Methode (z.B. Ölfleckversuch zur Atomdurchmesserbestimmung) konzentrieren, ohne alternative Ansätze zu erwähnen.
Mangel an Pluralismus und Ausgewogenheit:
- Beispiel: Erklärungen zu technischen Themen wie Wechselstromkreisen ohne Bezug auf unterschiedliche Anwendungen oder gesellschaftliche Implikationen.
Potenzial für Fehlinterpretationen oder Manipulation:
- Beispiel: Chemische Experimente ohne Hinweise auf Sicherheitsmaßnahmen, was zu Missverständnissen oder Gefahren führen könnte.
Einseitige Darstellung von Experimenten:
- Beispiel: Stumme Experimentiervideos, die ohne erklärenden Kontext präsentiert werden und somit pädagogische Tiefe fehlen lassen.
Technische Inhalte ohne Kontextualisierung:
- Beispiel: Förderung spezifischer Softwarelösungen (z.B. GeoGebra für Binomialverteilung) ohne Erwähnung alternativer Methoden.
Fehlende ethische und gesellschaftliche Implikationen:
- Beispiel: Diskussion von E-Mail-Sicherheit ohne Berücksichtigung der gesellschaftlichen Bedeutung von Datenschutz.

Manuelle Einzelfallprüfung von Beispielen:

Code Block

        {
            "properties_cclom:general_description": "So wie die Natur ver\u00e4ndert sich f\u00fcr uns scheinbar auch der Himmel im Laufe eines Jahres: jedes Quartal hat seine typischen Sternbilder. Um sich in jeder Jahreszeit am Himmel zu orientieren, gibt es vier Formationen, die keine Sternbilder sind, aber \u00e4hnlich wie\u2026",
            "original_neutralness_score": 5,
            "ai_neutralness_score": 2,
            "ai_reasoning": "Der Text ist von einer bestimmten ideologischen Ausrichtung gepr\u00e4gt, jedoch bleibt er verfassungskonform und korrekt. Es wird haupts\u00e4chlich eine Seite des Themas beleuchtet, ohne dass alternative Perspektiven ausreichend ber\u00fccksichtigt werden. Daher entspricht er nicht den Anforderungen f\u00fcr einen h\u00f6heren Wert, da er eine bestimmte Sichtweise nicht transparent macht."
        },

Auswertung: Es ist korrekt, das keine alternativen Perspektiven angeboten werden (ist hier auch schwierig). Eine ideologische Ausrichtung ist schwer erkennbar.

Auswertung der Ergebnisse

Die Untersuchung der Fähigkeit eines Large Language Models (LLM) zur Bewertung der Neutralität von Bildungsinhalten führte zu einigen aufschlussreichen Ergebnissen. Insgesamt zeigte das LLM in beiden Testreihen – basierend auf Beschreibungstexten und Volltexten – eine solide Leistungsfähigkeit, die mit den redaktionellen Bewertungen vergleichbar war, aber auch einige spezifische Herausforderungen offenbarte.

Leistung des LLM im Vergleich zu menschlichen Bewertungen

Beschreibungstexte:
- Die durchschnittliche absolute Abweichung (MAE) lag bei 0,62 Punkten, was eine relativ hohe Übereinstimmung mit den menschlichen Bewertungen signalisiert. Über 50 % der Bewertungen stimmten in einem engen Bereich mit den redaktionellen Einschätzungen überein.
- Die KI zeigte eine ähnliche Verteilung der Neutralitätsscores wie die menschlichen Bewertungen, was darauf hindeutet, dass die Beschreibungstexte bereits eine hohe Informationsdichte enthalten, die eine präzise Bewertung erlaubt. Möglicherweise enthalten die Beschreibungstexte bereits Hinweise auf die Qualität, die von den Redaktionen eingearbeitet wurden.
Volltexte:
- Die Volltexte waren im Schnitt viermal so lang wie die Beschreibungstexte und stellten eine größere Herausforderung für die KI dar. Die durchschnittliche absolute Abweichung lag bei 0,92 Punkten. Dies könnte darauf hindeuten, dass die Fülle an Informationen oder aber auch die Qualität der Volltexte die Neutralitätsbewertung erschwert.
- Auffällig war die Tatsache, dass die Volltexte eine höhere Betonung von Gefühlen und höhere Anforderungen an deren Verständnis aufwiesen, was möglicherweise zu größeren Abweichungen in der Bewertung führte.
Sonderfälle:
- In den Sonderfällen, bei denen die KI-Bewertung um mindestens 2 Punkte von der redaktionellen Bewertung abwich, zeigte sich, dass die KI besonders auf einseitige Perspektiven und fehlenden Pluralismus aufmerksam reagierte. Dies führte in einigen Fällen zu strikteren Bewertungen, insbesondere bei technischen oder wissenschaftlichen Inhalten ohne breitere Kontextualisierung.
- Diese Abweichungen machen deutlich, dass das LLM in der Lage ist, auf Aspekte aufmerksam zu machen, die menschliche Redaktionen eventuell weniger stark gewichtet haben. Besonders hervorzuheben ist die Fähigkeit des Modells, Risiken für Missverständnisse oder Manipulationen in den Texten zu erkennen.

Vergleich der Metriken

...

Table of Contents

minLevel	1
maxLevel	6
outline	false
style	none
type	list
printable	true

Abstract

In dieser Untersuchung wurde getestet, ob ein Large Language Model (LLM) zur Bewertung der Neutralität von Bildungsinhalten genutzt werden kann.

Für die Bewertung wurde ein theoriegeleitetes Bewertungssystem basierend auf 24 Fragen genutzt und mit Techniken ergänzt, die Halluzination reduzieren sollen wie z.B. Selbstreflektion durch Begründung der Antwort und ein Überzeugungswert für die sichere Beantwortung einer Frage.

Dabei wurden 2000 Datensätze, bestehend aus Beschreibungstexten und Volltexten, mithilfe eines angepassten Prompts durch ein KI-Modell bewertet und die Ergebnisse mit bereits vorhandenen redaktionellen Bewertungen verglichen.

Es wurden 2000 Datensätze von Bildungsinhalten der Plattform http://WirLernenOnline.de verwendet, die bereits redaktionell auf Neutralität bewertet wurden. Die Daten umfassten sowohl Beschreibungstexte als auch Volltexte, welche mittels der Python-Bibliothek Goose3 extrahiert und bereinigt wurden, um eine ausgewogene Stichprobe aus verschiedenen Fachbereichen sicherzustellen. Das LLM bewertete die Texte anhand eines speziell entwickelten Prompts, und die Ergebnisse wurden mit den bestehenden redaktionellen Bewertungen verglichen.

Die Analyse zeigte, dass das LLM bei den kürzeren Beschreibungstexten eine hohe Übereinstimmung mit den menschlichen Bewertungen aufwies (Mean Absolute Error, MAE = 1,00). Bei den längeren und komplexeren Volltexten war die Abweichung größer (MAE = 1,28). Mögliche Gründeh hierfür können unter anderen redaktionelle Einflüsse auf die Beschreibungstexte oder eine höhere Textqualität sein.

Die Evaluationsmetriken wie Precision und F1-Score bestätigten eine akzeptable Übereinstimmung, wobei die Beschreibungstexte besser abschnitten als die Volltexte. Insgesamt zeigt die Untersuchung, dass das die Bewertung mit einem LLM ein vielversprechendes Potenzial zur Unterstützung redaktioneller Bewertungsprozesse hinsichtlich der Neutralität von Bildungsinhalten besitzt, insbesondere bei kürzeren Texten.

Die größeren Abweichungen bei Volltexten verdeutlichen jedoch den Bedarf an weiterer Forschung, um die Bewertungsfähigkeiten des Modells für komplexere und längere Inhalte zu verbessern. Zukünftige Studien sollten sich auf die Optimierung des Prompts und die Erweiterung der Trainingsdaten konzentrieren, um eine präzisere und konsistentere Bewertung der Neutralität zu erreichen.

Erstellung des Test-Datensatzes

Die Grundlage dieser Untersuchung bildeten 2000 Datensätze von Bildungsinhalten, die von der Plattform http://WirLernenOnline.de abgerufen wurden und für die bereits redaktionelle Bewertungen zur Neutralität vorlagen.

Diese wurden auf einer Skala von 0 bis 5 eingeordnet, wobei 0 für manipulative oder verfassungswidrige Inhalte und 5 für vollständig neutrale und wissenschaftlich fundierte Inhalte steht.

...

Abruf der Rohdaten

Die Daten wurden über die REST-API der Plattform extrahiert. Dabei wurde das Feld cccm:oeh_quality_neutralnessgenutzt, um Inhalte nach den vorhandenen Neutralitätsscores (0-5) zu filtern. Diese Daten wurden in einer JSON-Datei gespeichert und für die weitere Analyse vorbereitet.

Anreicherung der Rohdaten mit Volltexten

In den Datensätzen sind Beschreibungstexte der Bildungsinhalte enthalten. Um einen Vergleich mit Volltexten durchführen zu können, wurden die URL aus dem Feld: ccm:wwwurl ausgelesen und die Inhalte der Webseiten extrahiert.

Zum Einsatz kam hierbei die Python Bibliothek Goose3, die intern BeautifulSoup nutzt und überflüssige Textbestandteile z.B. zur Struktur der Webseite mittels NLP-Techniken entfernt. Das Script wird im Anhang aufgeführt.

Die Volltexte, sowie Zusammenfassungen und Keywords wurden dann als additional_data in die JSON gespeichert und den Datensätzen zugeordnet.

Bei Datensätzen, für die Goose3 keinen Volltext generieren konnte (z.B. aufgrund eines sehr kleinen Textkorpus), wurden die Zusammenfassungen genutzt, die von Goose3 aus allen verfügbaren Infos der Webseiten gebildet werden.

Filterung der Rohdaten

Zusätzlich zu den Beschreibungstexten wurden Volltexte von den zugehörigen Webseiten der Bildungsinhalte abgerufen. Die URLs, die im Feld ccm:wwwurlgespeichert sind, wurden genutzt, um die Inhalte mittels der Python-Bibliothek Goose3 zu extrahieren (basiert auf beautifulsoup). Diese Bibliothek entfernt unnötige Textbestandteile und extrahiert den Hauptinhalt der Webseiten. Für Datensätze, bei denen keine vollständigen Texte erfasst werden konnten, wurden Zusammenfassungen genutzt, die auf den verfügbaren Informationen der Webseiten basieren.

Filterung der Rohdaten: Die Rohdaten wurden gefiltert, um sicherzustellen, dass alle relevanten Felder gefüllt und die Mindestlänge der für die Bewertung genutzten Textfelder gewährleistet ist. Dabei wurden folgende Kriterien angewendet:

Entfernt wurden Datensätze, bei denen folgende Felder leer waren:
- properties.cclom:general_description (Beschreibungstexte)
- additional_data.full_text (Volltexte)
- properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)
Zusätzlich wurden Datensätze ausgeschlossen, deren Textfelder (Beschreibungstexte und Volltexte) weniger als 60 Zeichen umfassen, um ausreichend Material für eine sinnvolle Bewertung zu haben.
- properties.cclom:general_description (Beschreibungstexte)
- additional_data.full_text (Volltexte)
Schließlich wurde die Anzahl der Datensätze auf 2000 reduziert und normalisiert. Dabei wurden folgende Felder zur gleichmäßigen Verteilung einbezogen:
- properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)
- properties.ccm:taxonid (Disziplinen)
  (Disziplinen) berücksichtigt, um eine ausgewogene Stichprobe der Bildungsinhalte aus unterschiedlichen Fachbereichen zu gewährleisten. Ein Round-Robin-Verfahren wurde angewandt, um sicherzustellen, dass die Disziplinen gleichmäßig vertreten sind.

Eine Gleichverteilung ist jedoch auf Grund der vorübergehend gut bewerteten Inhalte nur bedingt möglich.

LLM und Prompt

LLM-Model

Für die Bewertung der Neutralität von Bildungsinhalten wurde ein Large Language Model (LLM) verwendet. Das Modell,gpt-4o-mini (OpenAI), wurde ausgewählt, da es aufgrund seiner Effizienz und geringen Kosten eine praxisnahe Lösung darstellt. Das gleiche Experiment könnte auch mit anderen LLMs durchgeführt werden, allerdings können die Ergebnisse von Modell zu Modell variieren. Es wird davon ausgegangen, dass sogar mit dem gleichen Modell bei wiederholten Tests leicht unterschiedliche Ergebnisse auftreten könnten.

Promptentwicklung

Grundlage für die Promptentwicklung waren die zuvor ausgearbeiteten Aspekte der Neutralität von Bildungsinhalten. Zu den 12 ermittelten Aspekte wurden je 2 Fragen operationalisiert und gewichtet:

Frage Nr.	Frage	Gewichtung
1	Werden verschiedene Perspektiven auf das Thema umfassend und gleichwertig präsentiert?	0.05
2	Werden die unterschiedlichen Perspektiven neutral und ohne Vorurteile beschrieben?	0.05
3	Bietet das Material den Lernenden die Möglichkeit, eine eigene Meinung zu bilden, ohne sie zu beeinflussen?	0.05
4	Wird auf manipulative Sprache und emotionale Beeinflussung konsequent verzichtet?	0.05
5	Sind alle Informationen durch glaubwürdige und verlässliche Quellen belegt?	0.05
6	Werden alternative wissenschaftliche Theorien fair und nachvollziehbar dargestellt?	0.05
7	Werden politische Positionen ausgewogen und ohne Präferenz präsentiert?	0.05
8	Vermeidet das Material bewusst die Bevorzugung bestimmter politischer Parteien oder Ideologien?	0.05
9	Regt das Material die Lernenden dazu an, kritisch zu hinterfragen und eigenständig zu analysieren?	0.05
10	Werden Methoden zur strukturierten Analyse und Bewertung von Informationen klar vermittelt?	0.05
11	Sind die demokratischen Grundwerte verständlich und objektiv erklärt?	0.025
12	Wird die Reflexion demokratischer Prinzipien angeregt, ohne Vorgaben zu machen?	0.025
13	Werden praktische Beispiele und Übungen neutral und ohne ideologische Voreingenommenheit dargestellt?	0.025
14	Wird die Anwendung des Gelernten in der Praxis ohne ideologische Färbung gefördert?	0.025
15	Ist das Material altersgerecht aufbereitet und berücksichtigt es den Entwicklungsstand der Lernenden?	0.025
16	Berücksichtigt das Material verschiedene Lernstile und Bedürfnisse der Lernenden?	0.025
17	Werden die Inhalte neutral und ohne persönliche Wertungen des Autors dargestellt?	0.05
18	Beeinflussen persönliche Überzeugungen des Autors nicht die Art und Weise der Darstellung?	0.05
19	Wird bewusst darauf verzichtet, eine bestimmte Weltanschauung als einzig gültig darzustellen?	0.05
20	Werden alternative Sichtweisen respektiert und als legitime Optionen dargestellt?	0.05
21	Bietet das Material Strategien zur Erkennung von Fehlinformationen und Desinformation?	0.05
22	Wird die Bedeutung und der Einfluss von Fehlinformationen kritisch thematisiert?	0.05
23	Sind die dargestellten Informationen aktuell und auf dem neuesten Stand?	0.025
24	Werden relevante aktuelle Ereignisse, wenn notwendig, objektiv in die Inhalte eingebunden?	0.025

Jede Frage führt zu einer Bewertung, die tendenziell zustimmend oder ablehend ist. Eine kleinere Skala macht die spätere Überprüfung leichter. Zusätzlich wird auch der Fall beachtet, wenn es keine Informationen für die Bewertung der Aussage gibt.

Zusätzlich soll der Prompt eine kurze Begründung für die Antwort auf jede Frage einfordern, um diese später überprüfen zu können und eine begründete Vorgehensweise des LLM zu fördern.

Neben dem Scoring soll auch noch ein Überzeugungs-Wert gebildet werden, mit dem das LLM einschätzt, wie sicher es die Frage beantworten konnte.

4er Likert-Skala:

1 Punkt: Sehr unsicher – Ich bin mir kaum sicher, ob meine Antwort korrekt ist.
2 Punkte: Unsicher – Ich habe Zweifel, bin aber der Meinung, dass meine Antwort möglicherweise richtig ist.
3 Punkte: Sicher – Ich bin mir größtenteils sicher, dass meine Antwort korrekt ist.
4 Punkte: Sehr sicher – Ich bin vollständig überzeugt, dass meine Antwort richtig ist.
"N/A" für nicht anwendbare oder nicht bewertbare Aussagen.

Es sollen also keine Antworten keine Antworten gebildet werden, wenn keine Informationen vorliegen oder deren Beanwortung unsicher ist.

Um den Bewertungsprozess zu verbessern, wurde der Prompt auf dem OpenAI Playground mit dem Tool „Generate“ optimiert. Diese Optimierung fügte strukturierte Markdown-Formatierungen und Rückfragen zur Selbstreflexion hinzu, sodass das LLM seine Bewertung fundiert und nachvollziehbar gestalten konnte.

...

Finaler Prompt:

Code Block

Bitte bewerten Sie den folgenden Bildungsinhalt anhand der festgelegten Fragen, um dessen Neutralität zu beurteilen.

**Anleitung:**

1. Lesen Sie den Text sorgfältig.
2. Bewerten Sie jede der folgenden Fragen mit **1** bis **4** Punkten.
3. Geben Sie für jede Frage an, wie sicher Sie sich bei Ihrer Bewertung sind (**1** bis **4** Punkten).
4. Geben Sie für jede Frage eine Begründung von **einem Satz**.
5. Verwenden Sie "**N/A**", wenn die Informationen fehlen oder die Frage nicht anwendbar ist.
6. Antworten Sie ausschließlich im JSON-Format ohne zusätzlichen Text oder Präfix.

**Bewertungsskala:**

- **1 Punkt**: Stimme überhaupt nicht zu
- **2 Punkte**: Stimme eher nicht zu
- **3 Punkte**: Stimme eher zu
- **4 Punkte**: Stimme voll und ganz zu
- **N/A**: Nicht anwendbar oder Informationen fehlen

**Konfidenzskala:**

- **1 Punkt**: Sehr unsicher
- **2 Punkte**: Unsicher
- **3 Punkte**: Sicher
- **4 Punkte**: Sehr sicher
- **N/A**: Nicht anwendbar oder Informationen fehlen

**Fragen:**

1. Werden verschiedene Perspektiven auf das Thema umfassend und gleichwertig präsentiert?
2. Werden die unterschiedlichen Perspektiven neutral und ohne Vorurteile beschrieben?
3. Bietet das Material den Lernenden die Möglichkeit, eine eigene Meinung zu bilden, ohne sie zu beeinflussen?
4. Wird auf manipulative Sprache und emotionale Beeinflussung konsequent verzichtet?
5. Sind alle Informationen durch glaubwürdige und verlässliche Quellen belegt?
6. Werden alternative wissenschaftliche Theorien fair und nachvollziehbar dargestellt?
7. Werden politische Positionen ausgewogen und ohne Präferenz präsentiert?
8. Vermeidet das Material bewusst die Bevorzugung bestimmter politischer Parteien oder Ideologien?
9. Regt das Material die Lernenden dazu an, kritisch zu hinterfragen und eigenständig zu analysieren?
10. Werden Methoden zur strukturierten Analyse und Bewertung von Informationen klar vermittelt?
11. Sind die demokratischen Grundwerte verständlich und objektiv erklärt?
12. Wird die Reflexion demokratischer Prinzipien angeregt, ohne Vorgaben zu machen?
13. Werden praktische Beispiele und Übungen neutral und ohne ideologische Voreingenommenheit dargestellt?
14. Wird die Anwendung des Gelernten in der Praxis ohne ideologische Färbung gefördert?
15. Ist das Material altersgerecht aufbereitet und berücksichtigt es den Entwicklungsstand der Lernenden, ohne dabei inhaltlich eine bestimmte Sichtweise zu bevorzugen?
16. Berücksichtigt das Material verschiedene Lernstile und Bedürfnisse der Lernenden, ohne eine Methode als die einzig richtige darzustellen?
17. Werden die Inhalte neutral und ohne persönliche Wertungen des Autors dargestellt?
18. Beeinflussen persönliche Überzeugungen des Autors nicht die Art und Weise der Darstellung?
19. Wird bewusst darauf verzichtet, eine bestimmte Weltanschauung als einzig gültig darzustellen?
20. Werden alternative Sichtweisen respektiert und als legitime Optionen dargestellt?
21. Bietet das Material Strategien zur Erkennung von Fehlinformationen und Desinformation?
22. Wird die Bedeutung und der Einfluss von Fehlinformationen kritisch thematisiert?
23. Sind die dargestellten Informationen aktuell und auf dem neuesten Stand?
24. Werden relevante aktuelle Ereignisse, wenn notwendig, objektiv in die Inhalte eingebunden?

**Bitte geben Sie Ihre Bewertungen in folgendem Format zurück:**

{
  "questions": [
    {
      "question": "Unterschiedliche Perspektiven und Standpunkte werden präsentiert.",
      "rating": 3,
      "confidence": 4,
      "justification": "Der Text präsentiert mehrere Sichtweisen auf das Thema (Textstelle: ... den Aspekt kann man so und so deuten ...)."
    },
    {
      "question": "Diese Perspektiven werden sachlich dargestellt (Textstelle: ... die Schrittfolge ist wissenschaftlich gesichert ...).",
      "rating": "N/A",
      "confidence": "N/A",
      "justification": "Informationen fehlen."
    },
    ...
  ]
}

Berechnungs des Scoring

Gewichtete Rohpunktzahl bestimmen

Multiplikation der Bewertung (Likert 1 bis 4) mit der Gewichtung je Aussage
- Aussage 1: 4 Punkte
- Berechnung: 4 x 0,05 = 0,2
Bildung der Summe aller gewichteten Werte
- Berechnung: 0,2 + …
Fragen, für die N/A bewertet wurde, werden nicht berücksichtigt

Gewichtete Maximalpunktzahl bestimmen

Multiplikation der maximalen Punktzahl (entspricht 4 auf der Likert-Skala) mit der Gewichtung je Aussage
- Aussage 1: 4 Punkte
- Berechnung: 4 x 0,05 = 0,2
Bildung der Summe aller gewichteten Maximalwerte
- Berechnung: 0,2 + …
Fragen, für die N/A bewertet wurde, werden nicht berücksichtigt

Bildung des Gesamtscore

Roh- und Maximalpunkte werden ins Verhältnis gesetzt und auf die Skala von 0 bis 5 normalisiert
Berechnung: ( Gewichtete Rohpunktzahl / Gewichtete Maximalpunktzahl ) * 5
falls keine Fragen anwendbar sind, wird der Score auf 0 gesetzt

Einbezug der Überzeugung

es wurden nur Antworten in die Bewertung einbezogen, bei denen der Überzeugungswert 4 (sehr sicher) zurückgegeben wurde

Beispiel für die Score-Berechnung:

Frage 1: Score = 4, Überzeugung = 4 → volle Berücksichtigung (4 Punkte x Gewichtung)
Frage 2: Score = 3, Überzeugung = 2 → nicht berücksichtigt (0 Punkte, da niedrige Überzeugung)

Normalisierung auf ganze Zahlen (Punkte)

Die Normalisierung der Dezimalzahlen auf ganze Punktzahlen (0 bis 5) erfolgte auf Basis dieser Matrix:

Endpunktzahl	Dezimalzahl *	Erfüllungsgrad	Beschreibung
5	>4 und <=5	≥ 90 %	Hervorragende Neutralität
4	>3 und <=4	≥ 70 % bis < 90 %	Gute Neutralität
3	>2 und <=3	≥ 50 % bis < 70 %	Durchschnittliche Neutralität
2	>1 und <=2	≥ 30 % bis < 50 %	Unterdurchschnittliche Neutralität
1	>0 und <=1	≥ 10 % bis < 30 %	Mangelnde Neutralität
0	0	< 10 %	Keine Neutralität

Analyse des Testdatensatzes

Die Bildungsinhalte, die in diesem Test bewertet wurden, stammen von der Plattform http://WirLernenOnline.de. Der Fokus lag darauf, die KI-Bewertungen mit den redaktionellen Neutralitätsbewertungen zu vergleichen, um festzustellen, ob das LLM in der Lage ist, ähnliche Bewertungen vorzunehmen.

Die Bildungsinhalte sind vorwiegend dem Bereich Schulbildung zuzuordnen und auf der Neutralitäts-Skala hoch bewertet (4 bis 5). Dies lässt sich durch das redaktionelle einpflegen der Inhalte erklären.

Verteilung der Daten

Ein Großteil der Datensätze ist den Disziplinen: Informatik, Chemie, Physik, Mathematik und Darstellendes Spiel zuzuordnen.

...

Fast alle Inhalte wurden auf der Skala mit 4 oder 5 bewertet, was jedoch im Rahmen der Erwartungen liegt, da von Redaktionen gepflegte Inhalte von eher besserer Qualität sind.

...

Analyse der Textqualität

Da die Beschreibungs- und Volltexte die Grundlage der Bewertung bildeten, wurden diese hinsichtlich ihrer Qualität bewertet.

Die durchschnittliche Zeichenlänge der Volltexte beträgt etwa 860 Zeichen, während die Kurzbeschreibungen im Schnitt nur 228 Zeichen umfassen. Dieser signifikante Unterschied spiegelt wider, dass die Volltexte eine detailliertere und umfassendere Darstellung der Inhalte bieten, während die Kurzbeschreibungen nur die wesentlichen Informationen in verdichteter Form wiedergeben.

Allerdings zeigte sich, das die Beschreibungstexte im Vergleich zu den Volltexten weniger emotional gestaltet sind und mit geringerer formaler Bildung zu verstanden werden können (SMOG-Index).

Textanalyse der Beschreibungstexte

...

Textanalyse Volltexte

...

Testdurchführung

Für die Testdurchführung wurde ein Python-Script entwickelt, das die Beschreibungs- und Volltexte der Bildungsdatensätze von http://WirLernenOnline.de nutzt, um eine KI-basierte Bewertung der Neutralität durchzuführen.

Das Script verknüpfte die im JSON-Format vorliegenden Daten mit dem speziell entwickelten Prompt und führte die Bewertungen der Inhalte durch ein LLM (Large Language Model) aus.

Aufbau des Tests

Der Test wurde in zwei Testreihen durchgeführt:

Testreihe 1 verwendete die Beschreibungstexte der Bildungsinhalte, um die KI-gestützte Bewertung durchzuführen.
Testreihe 2 basierte auf den von den Webseiten extrahierten Volltexten, die eine umfassendere inhaltliche Analyse ermöglichten.

Testergebnisse

Testergebnisse mit Beschreibungstexten

...

Evaluationsmetriken

Mean Absolute Error (MAE): 1.0
Mean Squared Error (MSE): 2.6975
Root Mean Squared Error (RMSE): 1.6424
R² Score: -10.002
Pearson-Korrelation: 0.1185

Evaluationsmetriken (Klassifikation mit gerundeten Werten)

Precision: 0.6004
F1-Score: 0.4973

Bereiche

Bereich der Originalscores: 2 bis 5
Bereich der vorhergesagten Scores: 0 bis 5.0

Auszug aus den Antworten

...

Testergebnisse mit Volltexten

...

Evauluationsmetriken:

Mean Absolute Error (MAE): 1.2823
Mean Squared Error (MSE): 3.7673
Root Mean Squared Error (RMSE): 1.941
R² Score: -14.3652
Pearson-Korrelation: 0.0374

Evaluationsmetriken (Klassifikation mit gerundeten Werten)

Precision: 0.5426
F1-Score: 0.4297

Hinweise zu den Metriken

Precision misst, wie genau die positiven Vorhersagen des Modells sind. Ein Wert von 0.85 bedeutet, dass 85% der als positiv vorhergesagten Fälle tatsächlich korrekt waren, während 15% falsch positive Vorhersagen waren.
F1 Score ist das harmonische Mittel von Precision und Recall und gibt ein ausgewogenes Maß der Modellleistung. Ein F1 Score von 0.75 zeigt, dass das Modell eine gute Balance zwischen Genauigkeit (Precision) und Vollständigkeit (Recall) der Vorhersagen findet.
Mean Absolute Error (MAE) gibt den durchschnittlichen absoluten Unterschied zwischen den vorhergesagten und den tatsächlichen Werten an. Ein MAE von 2.3 zeigt, dass die Vorhersagen im Durchschnitt um 2.3 Einheiten (z. B. Punkte) vom tatsächlichen Wert abweichen.
Mean Squared Error (MSE) misst den Durchschnitt der quadrierten Fehler. Ein Wert von 10 bedeutet, dass größere Fehler stärker betont werden, und ein niedriger MSE zeigt eine gute Modellleistung an.
Root Mean Squared Error (RMSE) ist die Quadratwurzel des MSE und gibt den Fehler in derselben Einheit wie die Zielvariable an. Ein RMSE von 3.2 zeigt, dass der durchschnittliche Fehler bei etwa 3.2 Einheiten (z. B. Punkten) liegt.
R² Score misst, wie gut die Varianz der Zielvariable durch das Modell erklärt wird. Ein R² von 0.92 bedeutet, dass das Modell 92% der Varianz erklären kann, was auf eine gute Passung hinweist.
Pearson-Korrelation misst die lineare Beziehung zwischen den vorhergesagten und den tatsächlichen Werten. Ein Wert von 0.88 zeigt eine starke positive lineare Korrelation, d. h., die Vorhersagen folgen den tatsächlichen Werten sehr gut.
Durchschnittliche Abweichung zeigt den durchschnittlichen Unterschied zwischen den AI-bewerteten und den Originalwerten an. Eine Abweichung von 1.1 bedeutet, dass die KI-Bewertungen im Durchschnitt um 1.1 Einheiten vom tatsächlichen Wert abweichen, was auf eine hohe Übereinstimmung hindeutet.

Analyse der Sonderfälle

offen

Auswertung der Ergebnisse

Die vorliegende Untersuchung bewertet die Fähigkeit des Large Language Models zur Einschätzung der Neutralität von Bildungsinhalten. Die Ergebnisse zeigen, dass das Modell bei Beschreibungstexten eine durchschnittliche absolute Abweichung (MAE) von 1,0 aufweist, mit einer Precision von 0,6004 und einem F1-Score von 0,4973. Diese Werte deuten auf eine moderate Übereinstimmung mit den redaktionellen Bewertungen hin, wobei die kürzeren und prägnanteren Beschreibungstexte eine bessere Bewertungskapazität des Modells ermöglichen.

Bei den Volltexten hingegen beträgt die MAE 1,2823, die Precision 0,5426 und der F1-Score 0,4297. Diese höheren Abweichungen und niedrigeren Metriken verdeutlichen die Schwierigkeiten des Modells bei der Analyse längerer und komplexerer Texte. Mögliche Einflussfaktoren sind u.a. eine in den Beschreibungstexten enthaltene Wertung durch die Redaktionen oder eine höhere Textqualität.

Insgesamt demonstriert das LLM ein potenziell wertvolles Werkzeug zur Unterstützung redaktioneller Prozesse bei der Neutralitätsprüfung von Bildungsinhalten, insbesondere für kürzere Texte. Für eine zuverlässigere Bewertung komplexerer Volltexte sind jedoch weitere Forschungs- und Optimierungsmaßnahmen erforderlich, um die Genauigkeit und Konsistenz der Bewertungen zu verbessern.

Fazit

Das LLM konnte in einem breiten Spektrum von Bildungsinhalten eine angemessene Bewertung der Neutralität liefern. Die erzielten Ergebnisse zeigen, dass es als Unterstützung für redaktionelle Bewertungsprozesse wertvolle Einblicke bieten kann, insbesondere bei der Identifikation von potenziell einseitigen oder ideologisch geprägten Inhalten.

Gleichzeitig weist die Analyse darauf hin, dass die KI bei längeren, komplexeren Volltexten größere Schwierigkeiten hat, was weiteren Forschungsbedarf nahelegt. Weitere Tests könnten untersuchen, ob und wie das LLM durch zusätzliche Trainingseinheiten oder feinere Anpassungen des Prompts (z.B. durch eine optimierte Gewichtung von Aspekten wie Pluralismus) besser in der Lage ist, die volle inhaltliche Tiefe und den pluralistischen Anspruch von Volltexten zu erfassen.Es zeigt sich auch, dass die LLM-Bewertung auf bestimmte Aspekte der Neutralität stärker fokussiert, wie etwa die Vielfalt der Perspektiven und das Risiko für Fehlinterpretationen. Diese Fokusverschiebung könnte zu wertvollen Ergänzungen im Prozess der Neutralitätsbewertung beitragen, sollte jedoch immer im Kontext der redaktionellen Standards interpretiert werden.

Page Comparison

Versions Compared

Old Version 2

New Version Current

Key

Abstract

Erstellung des Test-Datensatzes

Abruf der Rohdaten

Anreicherung der Rohdaten mit Volltexten

Filterung der Rohdaten

LLM und Prompt

LLM-Model

Promptentwicklung

Berechnungs des Scoring

Gewichtete Rohpunktzahl bestimmen

Gewichtete Maximalpunktzahl bestimmen

Bildung des Gesamtscore

Einbezug der Überzeugung

Normalisierung auf ganze Zahlen (Punkte)

Analyse des Testdatensatzes

Verteilung der Daten

Analyse der Textqualität

Textanalyse der Beschreibungstexte

Textanalyse Volltexte

Testdurchführung

Aufbau des Tests

Testergebnisse

Testergebnisse mit Beschreibungstexten

Evaluationsmetriken

Evaluationsmetriken (Klassifikation mit gerundeten Werten)

Bereiche

Auszug aus den Antworten

Testergebnisse mit Volltexten

Hinweise zu den Metriken

Analyse der Sonderfälle

Auswertung der Ergebnisse

Leistung des LLM im Vergleich zu menschlichen Bewertungen

Vergleich der Metriken

Abstract

Erstellung des Test-Datensatzes

Abruf der Rohdaten

Anreicherung der Rohdaten mit Volltexten

Filterung der Rohdaten

LLM und Prompt

LLM-Model

Promptentwicklung

Berechnungs des Scoring

Gewichtete Rohpunktzahl bestimmen

Gewichtete Maximalpunktzahl bestimmen

Bildung des Gesamtscore

Einbezug der Überzeugung

Normalisierung auf ganze Zahlen (Punkte)

Analyse des Testdatensatzes

Verteilung der Daten

Analyse der Textqualität

Textanalyse der Beschreibungstexte

Textanalyse Volltexte

Testdurchführung

Aufbau des Tests

Testergebnisse

Testergebnisse mit Beschreibungstexten

Evaluationsmetriken

Evaluationsmetriken (Klassifikation mit gerundeten Werten)

Bereiche

Auszug aus den Antworten

Testergebnisse mit Volltexten

Evaluationsmetriken (Klassifikation mit gerundeten Werten)

Hinweise zu den Metriken

Analyse der Sonderfälle

Auswertung der Ergebnisse

Fazit

Anlage