1 Abstract
2 Erstellung des Test-Datensatzes
3 LLM und Prompt
- 3.1 LLM-Model
- 3.2 Promptentwicklung
4 Berechnungs des Scoring
- 4.1 Gewichtete Rohpunktzahl bestimmen
- 4.2 Gewichtete Maximalpunktzahl bestimmen
- 4.3 Bildung des Gesamtscore
  - 4.3.1 Einbezug der Überzeugung
  - 4.3.2 Normalisierung auf ganze Zahlen (Punkte)
5 Analyse des Testdatensatzes
- 5.1 Verteilung der Daten
- 5.2 Analyse der Textqualität
  - 5.2.1 Textanalyse der Beschreibungstexte
  - 5.2.2 Textanalyse Volltexte
6 Testdurchführung
- 6.1 Aufbau des Tests
7 Testergebnisse
- 7.1 Testergebnisse mit Beschreibungstexten
  - 7.1.1 Evaluationsmetriken
  - 7.1.2 Evaluationsmetriken (Klassifikation mit gerundeten Werten)
  - 7.1.3 Bereiche
  - 7.1.4 Auszug aus den Antworten
- 7.2 Testergebnisse mit Volltexten
  - 7.2.1 Evaluationsmetriken (Klassifikation mit gerundeten Werten)
- 7.3 Hinweise zu den Metriken
- 7.4 Analyse der Sonderfälle
8 Auswertung der Ergebnisse
9 Fazit
10 Anlage

Abstract

In dieser Untersuchung wurde getestet, ob ein Large Language Model (LLM) zur Bewertung der Neutralität von Bildungsinhalten genutzt werden kann.

Für die Bewertung wurde ein theoriegeleitetes Bewertungssystem basierend auf 24 Fragen genutzt und mit Techniken ergänzt, die Halluzination reduzieren sollen wie z.B. Selbstreflektion durch Begründung der Antwort und ein Überzeugungswert für die sichere Beantwortung einer Frage.

Dabei wurden 2000 Datensätze, bestehend aus Beschreibungstexten und Volltexten, mithilfe eines angepassten Prompts durch ein KI-Modell bewertet und die Ergebnisse mit bereits vorhandenen redaktionellen Bewertungen verglichen.

Es wurden 2000 Datensätze von Bildungsinhalten der Plattform http://WirLernenOnline.de verwendet, die bereits redaktionell auf Neutralität bewertet wurden. Die Daten umfassten sowohl Beschreibungstexte als auch Volltexte, welche mittels der Python-Bibliothek Goose3 extrahiert und bereinigt wurden, um eine ausgewogene Stichprobe aus verschiedenen Fachbereichen sicherzustellen. Das LLM bewertete die Texte anhand eines speziell entwickelten Prompts, und die Ergebnisse wurden mit den bestehenden redaktionellen Bewertungen verglichen.

Die Analyse zeigte, dass das LLM bei den kürzeren Beschreibungstexten eine hohe Übereinstimmung mit den menschlichen Bewertungen aufwies (Mean Absolute Error, MAE = 1,00). Bei den längeren und komplexeren Volltexten war die Abweichung größer (MAE = 1,28). Mögliche Gründeh hierfür können unter anderen redaktionelle Einflüsse auf die Beschreibungstexte oder eine höhere Textqualität sein.

Die Evaluationsmetriken wie Precision und F1-Score bestätigten eine akzeptable Übereinstimmung, wobei die Beschreibungstexte besser abschnitten als die Volltexte. Insgesamt zeigt die Untersuchung, dass das die Bewertung mit einem LLM ein vielversprechendes Potenzial zur Unterstützung redaktioneller Bewertungsprozesse hinsichtlich der Neutralität von Bildungsinhalten besitzt, insbesondere bei kürzeren Texten.

Die größeren Abweichungen bei Volltexten verdeutlichen jedoch den Bedarf an weiterer Forschung, um die Bewertungsfähigkeiten des Modells für komplexere und längere Inhalte zu verbessern. Zukünftige Studien sollten sich auf die Optimierung des Prompts und die Erweiterung der Trainingsdaten konzentrieren, um eine präzisere und konsistentere Bewertung der Neutralität zu erreichen.

Erstellung des Test-Datensatzes

Die Grundlage dieser Untersuchung bildeten 2000 Datensätze von Bildungsinhalten, die von der Plattform http://WirLernenOnline.de abgerufen wurden und für die bereits redaktionelle Bewertungen zur Neutralität vorlagen.

Diese wurden auf einer Skala von 0 bis 5 eingeordnet, wobei 0 für manipulative oder verfassungswidrige Inhalte und 5 für vollständig neutrale und wissenschaftlich fundierte Inhalte steht.

Abruf der Rohdaten

Die Daten wurden über die REST-API der Plattform extrahiert. Dabei wurde das Feld cccm:oeh_quality_neutralness genutzt, um Inhalte nach den vorhandenen Neutralitätsscores (0-5) zu filtern. Diese Daten wurden in einer JSON-Datei gespeichert und für die weitere Analyse vorbereitet.

Anreicherung der Rohdaten mit Volltexten

In den Datensätzen sind Beschreibungstexte der Bildungsinhalte enthalten. Um einen Vergleich mit Volltexten durchführen zu können, wurden die URL aus dem Feld: ccm:wwwurl ausgelesen und die Inhalte der Webseiten extrahiert.

Zum Einsatz kam hierbei die Python Bibliothek Goose3, die intern BeautifulSoup nutzt und überflüssige Textbestandteile z.B. zur Struktur der Webseite mittels NLP-Techniken entfernt. Das Script wird im Anhang aufgeführt.

Die Volltexte, sowie Zusammenfassungen und Keywords wurden dann als additional_data in die JSON gespeichert und den Datensätzen zugeordnet.

Bei Datensätzen, für die Goose3 keinen Volltext generieren konnte (z.B. aufgrund eines sehr kleinen Textkorpus), wurden die Zusammenfassungen genutzt, die von Goose3 aus allen verfügbaren Infos der Webseiten gebildet werden.

Filterung der Rohdaten

Zusätzlich zu den Beschreibungstexten wurden Volltexte von den zugehörigen Webseiten der Bildungsinhalte abgerufen. Die URLs, die im Feld ccm:wwwurl gespeichert sind, wurden genutzt, um die Inhalte mittels der Python-Bibliothek Goose3 zu extrahieren (basiert auf beautifulsoup). Diese Bibliothek entfernt unnötige Textbestandteile und extrahiert den Hauptinhalt der Webseiten. Für Datensätze, bei denen keine vollständigen Texte erfasst werden konnten, wurden Zusammenfassungen genutzt, die auf den verfügbaren Informationen der Webseiten basieren.

Filterung der Rohdaten: Die Rohdaten wurden gefiltert, um sicherzustellen, dass alle relevanten Felder gefüllt und die Mindestlänge der für die Bewertung genutzten Textfelder gewährleistet ist. Dabei wurden folgende Kriterien angewendet:

Entfernt wurden Datensätze, bei denen folgende Felder leer waren:
- properties.cclom:general_description (Beschreibungstexte)
- additional_data.full_text (Volltexte)
- properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)
Zusätzlich wurden Datensätze ausgeschlossen, deren Textfelder (Beschreibungstexte und Volltexte) weniger als 60 Zeichen umfassen, um ausreichend Material für eine sinnvolle Bewertung zu haben.
- properties.cclom:general_description (Beschreibungstexte)
- additional_data.full_text (Volltexte)
Schließlich wurde die Anzahl der Datensätze auf 2000 reduziert und normalisiert. Dabei wurden folgende Felder zur gleichmäßigen Verteilung einbezogen:
- properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)
- properties.ccm:taxonid (Disziplinen)
  (Disziplinen) berücksichtigt, um eine ausgewogene Stichprobe der Bildungsinhalte aus unterschiedlichen Fachbereichen zu gewährleisten. Ein Round-Robin-Verfahren wurde angewandt, um sicherzustellen, dass die Disziplinen gleichmäßig vertreten sind.

Eine Gleichverteilung ist jedoch auf Grund der vorübergehend gut bewerteten Inhalte nur bedingt möglich.

LLM und Prompt

LLM-Model

Für die Bewertung der Neutralität von Bildungsinhalten wurde ein Large Language Model (LLM) verwendet. Das Modell, gpt-4o-mini (OpenAI), wurde ausgewählt, da es aufgrund seiner Effizienz und geringen Kosten eine praxisnahe Lösung darstellt. Das gleiche Experiment könnte auch mit anderen LLMs durchgeführt werden, allerdings können die Ergebnisse von Modell zu Modell variieren. Es wird davon ausgegangen, dass sogar mit dem gleichen Modell bei wiederholten Tests leicht unterschiedliche Ergebnisse auftreten könnten.

Promptentwicklung

Grundlage für die Promptentwicklung waren die zuvor ausgearbeiteten Aspekte der Neutralität von Bildungsinhalten. Zu den 12 ermittelten Aspekte wurden je 2 Fragen operationalisiert und gewichtet:

Frage Nr.	Frage	Gewichtung

Frage Nr.	Frage	Gewichtung
1	Werden verschiedene Perspektiven auf das Thema umfassend und gleichwertig präsentiert?	0.05
2	Werden die unterschiedlichen Perspektiven neutral und ohne Vorurteile beschrieben?	0.05
3	Bietet das Material den Lernenden die Möglichkeit, eine eigene Meinung zu bilden, ohne sie zu beeinflussen?	0.05
4	Wird auf manipulative Sprache und emotionale Beeinflussung konsequent verzichtet?	0.05
5	Sind alle Informationen durch glaubwürdige und verlässliche Quellen belegt?	0.05
6	Werden alternative wissenschaftliche Theorien fair und nachvollziehbar dargestellt?	0.05
7	Werden politische Positionen ausgewogen und ohne Präferenz präsentiert?	0.05
8	Vermeidet das Material bewusst die Bevorzugung bestimmter politischer Parteien oder Ideologien?	0.05
9	Regt das Material die Lernenden dazu an, kritisch zu hinterfragen und eigenständig zu analysieren?	0.05
10	Werden Methoden zur strukturierten Analyse und Bewertung von Informationen klar vermittelt?	0.05
11	Sind die demokratischen Grundwerte verständlich und objektiv erklärt?	0.025
12	Wird die Reflexion demokratischer Prinzipien angeregt, ohne Vorgaben zu machen?	0.025
13	Werden praktische Beispiele und Übungen neutral und ohne ideologische Voreingenommenheit dargestellt?	0.025
14	Wird die Anwendung des Gelernten in der Praxis ohne ideologische Färbung gefördert?	0.025
15	Ist das Material altersgerecht aufbereitet und berücksichtigt es den Entwicklungsstand der Lernenden?	0.025
16	Berücksichtigt das Material verschiedene Lernstile und Bedürfnisse der Lernenden?	0.025
17	Werden die Inhalte neutral und ohne persönliche Wertungen des Autors dargestellt?	0.05
18	Beeinflussen persönliche Überzeugungen des Autors nicht die Art und Weise der Darstellung?	0.05
19	Wird bewusst darauf verzichtet, eine bestimmte Weltanschauung als einzig gültig darzustellen?	0.05
20	Werden alternative Sichtweisen respektiert und als legitime Optionen dargestellt?	0.05
21	Bietet das Material Strategien zur Erkennung von Fehlinformationen und Desinformation?	0.05
22	Wird die Bedeutung und der Einfluss von Fehlinformationen kritisch thematisiert?	0.05
23	Sind die dargestellten Informationen aktuell und auf dem neuesten Stand?	0.025
24	Werden relevante aktuelle Ereignisse, wenn notwendig, objektiv in die Inhalte eingebunden?	0.025

Jede Frage führt zu einer Bewertung, die tendenziell zustimmend oder ablehend ist. Eine kleinere Skala macht die spätere Überprüfung leichter. Zusätzlich wird auch der Fall beachtet, wenn es keine Informationen für die Bewertung der Aussage gibt.

Zusätzlich soll der Prompt eine kurze Begründung für die Antwort auf jede Frage einfordern, um diese später überprüfen zu können und eine begründete Vorgehensweise des LLM zu fördern.

Neben dem Scoring soll auch noch ein Überzeugungs-Wert gebildet werden, mit dem das LLM einschätzt, wie sicher es die Frage beantworten konnte.

4er Likert-Skala:

1 Punkt: Sehr unsicher – Ich bin mir kaum sicher, ob meine Antwort korrekt ist.
2 Punkte: Unsicher – Ich habe Zweifel, bin aber der Meinung, dass meine Antwort möglicherweise richtig ist.
3 Punkte: Sicher – Ich bin mir größtenteils sicher, dass meine Antwort korrekt ist.
4 Punkte: Sehr sicher – Ich bin vollständig überzeugt, dass meine Antwort richtig ist.
"N/A" für nicht anwendbare oder nicht bewertbare Aussagen.

Es sollen also keine Antworten keine Antworten gebildet werden, wenn keine Informationen vorliegen oder deren Beanwortung unsicher ist.

Um den Bewertungsprozess zu verbessern, wurde der Prompt auf dem OpenAI Playground mit dem Tool „Generate“ optimiert. Diese Optimierung fügte strukturierte Markdown-Formatierungen und Rückfragen zur Selbstreflexion hinzu, sodass das LLM seine Bewertung fundiert und nachvollziehbar gestalten konnte.

Finaler Prompt:

Bitte bewerten Sie den folgenden Bildungsinhalt anhand der festgelegten Fragen, um dessen Neutralität zu beurteilen.

**Anleitung:**

1. Lesen Sie den Text sorgfältig.
2. Bewerten Sie jede der folgenden Fragen mit **1** bis **4** Punkten.
3. Geben Sie für jede Frage an, wie sicher Sie sich bei Ihrer Bewertung sind (**1** bis **4** Punkten).
4. Geben Sie für jede Frage eine Begründung von **einem Satz**.
5. Verwenden Sie "**N/A**", wenn die Informationen fehlen oder die Frage nicht anwendbar ist.
6. Antworten Sie ausschließlich im JSON-Format ohne zusätzlichen Text oder Präfix.

**Bewertungsskala:**

- **1 Punkt**: Stimme überhaupt nicht zu
- **2 Punkte**: Stimme eher nicht zu
- **3 Punkte**: Stimme eher zu
- **4 Punkte**: Stimme voll und ganz zu
- **N/A**: Nicht anwendbar oder Informationen fehlen

**Konfidenzskala:**

- **1 Punkt**: Sehr unsicher
- **2 Punkte**: Unsicher
- **3 Punkte**: Sicher
- **4 Punkte**: Sehr sicher
- **N/A**: Nicht anwendbar oder Informationen fehlen

**Fragen:**

1. Werden verschiedene Perspektiven auf das Thema umfassend und gleichwertig präsentiert?
2. Werden die unterschiedlichen Perspektiven neutral und ohne Vorurteile beschrieben?
3. Bietet das Material den Lernenden die Möglichkeit, eine eigene Meinung zu bilden, ohne sie zu beeinflussen?
4. Wird auf manipulative Sprache und emotionale Beeinflussung konsequent verzichtet?
5. Sind alle Informationen durch glaubwürdige und verlässliche Quellen belegt?
6. Werden alternative wissenschaftliche Theorien fair und nachvollziehbar dargestellt?
7. Werden politische Positionen ausgewogen und ohne Präferenz präsentiert?
8. Vermeidet das Material bewusst die Bevorzugung bestimmter politischer Parteien oder Ideologien?
9. Regt das Material die Lernenden dazu an, kritisch zu hinterfragen und eigenständig zu analysieren?
10. Werden Methoden zur strukturierten Analyse und Bewertung von Informationen klar vermittelt?
11. Sind die demokratischen Grundwerte verständlich und objektiv erklärt?
12. Wird die Reflexion demokratischer Prinzipien angeregt, ohne Vorgaben zu machen?
13. Werden praktische Beispiele und Übungen neutral und ohne ideologische Voreingenommenheit dargestellt?
14. Wird die Anwendung des Gelernten in der Praxis ohne ideologische Färbung gefördert?
15. Ist das Material altersgerecht aufbereitet und berücksichtigt es den Entwicklungsstand der Lernenden, ohne dabei inhaltlich eine bestimmte Sichtweise zu bevorzugen?
16. Berücksichtigt das Material verschiedene Lernstile und Bedürfnisse der Lernenden, ohne eine Methode als die einzig richtige darzustellen?
17. Werden die Inhalte neutral und ohne persönliche Wertungen des Autors dargestellt?
18. Beeinflussen persönliche Überzeugungen des Autors nicht die Art und Weise der Darstellung?
19. Wird bewusst darauf verzichtet, eine bestimmte Weltanschauung als einzig gültig darzustellen?
20. Werden alternative Sichtweisen respektiert und als legitime Optionen dargestellt?
21. Bietet das Material Strategien zur Erkennung von Fehlinformationen und Desinformation?
22. Wird die Bedeutung und der Einfluss von Fehlinformationen kritisch thematisiert?
23. Sind die dargestellten Informationen aktuell und auf dem neuesten Stand?
24. Werden relevante aktuelle Ereignisse, wenn notwendig, objektiv in die Inhalte eingebunden?

**Bitte geben Sie Ihre Bewertungen in folgendem Format zurück:**

{
  "questions": [
    {
      "question": "Unterschiedliche Perspektiven und Standpunkte werden präsentiert.",
      "rating": 3,
      "confidence": 4,
      "justification": "Der Text präsentiert mehrere Sichtweisen auf das Thema (Textstelle: ... den Aspekt kann man so und so deuten ...)."
    },
    {
      "question": "Diese Perspektiven werden sachlich dargestellt (Textstelle: ... die Schrittfolge ist wissenschaftlich gesichert ...).",
      "rating": "N/A",
      "confidence": "N/A",
      "justification": "Informationen fehlen."
    },
    ...
  ]
}

Berechnungs des Scoring

Gewichtete Rohpunktzahl bestimmen

Multiplikation der Bewertung (Likert 1 bis 4) mit der Gewichtung je Aussage
- Aussage 1: 4 Punkte
- Berechnung: 4 x 0,05 = 0,2
Bildung der Summe aller gewichteten Werte
- Berechnung: 0,2 + …
Fragen, für die N/A bewertet wurde, werden nicht berücksichtigt

Gewichtete Maximalpunktzahl bestimmen

Multiplikation der maximalen Punktzahl (entspricht 4 auf der Likert-Skala) mit der Gewichtung je Aussage
- Aussage 1: 4 Punkte
- Berechnung: 4 x 0,05 = 0,2
Bildung der Summe aller gewichteten Maximalwerte
- Berechnung: 0,2 + …
Fragen, für die N/A bewertet wurde, werden nicht berücksichtigt

Bildung des Gesamtscore

Roh- und Maximalpunkte werden ins Verhältnis gesetzt und auf die Skala von 0 bis 5 normalisiert
Berechnung: ( Gewichtete Rohpunktzahl / Gewichtete Maximalpunktzahl ) * 5
falls keine Fragen anwendbar sind, wird der Score auf 0 gesetzt

Einbezug der Überzeugung

es wurden nur Antworten in die Bewertung einbezogen, bei denen der Überzeugungswert 4 (sehr sicher) zurückgegeben wurde

Beispiel für die Score-Berechnung:

Frage 1: Score = 4, Überzeugung = 4 → volle Berücksichtigung (4 Punkte x Gewichtung)
Frage 2: Score = 3, Überzeugung = 2 → nicht berücksichtigt (0 Punkte, da niedrige Überzeugung)

Normalisierung auf ganze Zahlen (Punkte)

Die Normalisierung der Dezimalzahlen auf ganze Punktzahlen (0 bis 5) erfolgte auf Basis dieser Matrix:

Endpunktzahl	Dezimalzahl *	Erfüllungsgrad	Beschreibung

Endpunktzahl	Dezimalzahl *	Erfüllungsgrad	Beschreibung
5	>4 und <=5	≥ 90 %	Hervorragende Neutralität
4	>3 und <=4	≥ 70 % bis < 90 %	Gute Neutralität
3	>2 und <=3	≥ 50 % bis < 70 %	Durchschnittliche Neutralität
2	>1 und <=2	≥ 30 % bis < 50 %	Unterdurchschnittliche Neutralität
1	>0 und <=1	≥ 10 % bis < 30 %	Mangelnde Neutralität
0	0	< 10 %	Keine Neutralität

Analyse des Testdatensatzes

Die Bildungsinhalte, die in diesem Test bewertet wurden, stammen von der Plattform http://WirLernenOnline.de. Der Fokus lag darauf, die KI-Bewertungen mit den redaktionellen Neutralitätsbewertungen zu vergleichen, um festzustellen, ob das LLM in der Lage ist, ähnliche Bewertungen vorzunehmen.

Die Bildungsinhalte sind vorwiegend dem Bereich Schulbildung zuzuordnen und auf der Neutralitäts-Skala hoch bewertet (4 bis 5). Dies lässt sich durch das redaktionelle einpflegen der Inhalte erklären.

Verteilung der Daten

Ein Großteil der Datensätze ist den Disziplinen: Informatik, Chemie, Physik, Mathematik und Darstellendes Spiel zuzuordnen.

Fast alle Inhalte wurden auf der Skala mit 4 oder 5 bewertet, was jedoch im Rahmen der Erwartungen liegt, da von Redaktionen gepflegte Inhalte von eher besserer Qualität sind.

Analyse der Textqualität

Da die Beschreibungs- und Volltexte die Grundlage der Bewertung bildeten, wurden diese hinsichtlich ihrer Qualität bewertet.

Die durchschnittliche Zeichenlänge der Volltexte beträgt etwa 860 Zeichen, während die Kurzbeschreibungen im Schnitt nur 228 Zeichen umfassen. Dieser signifikante Unterschied spiegelt wider, dass die Volltexte eine detailliertere und umfassendere Darstellung der Inhalte bieten, während die Kurzbeschreibungen nur die wesentlichen Informationen in verdichteter Form wiedergeben.

Allerdings zeigte sich, das die Beschreibungstexte im Vergleich zu den Volltexten weniger emotional gestaltet sind und mit geringerer formaler Bildung zu verstanden werden können (SMOG-Index).

Textanalyse der Beschreibungstexte

Textanalyse Volltexte

Testdurchführung

Für die Testdurchführung wurde ein Python-Script entwickelt, das die Beschreibungs- und Volltexte der Bildungsdatensätze von http://WirLernenOnline.de nutzt, um eine KI-basierte Bewertung der Neutralität durchzuführen.

Das Script verknüpfte die im JSON-Format vorliegenden Daten mit dem speziell entwickelten Prompt und führte die Bewertungen der Inhalte durch ein LLM (Large Language Model) aus.

Aufbau des Tests

Der Test wurde in zwei Testreihen durchgeführt:

Testreihe 1 verwendete die Beschreibungstexte der Bildungsinhalte, um die KI-gestützte Bewertung durchzuführen.
Testreihe 2 basierte auf den von den Webseiten extrahierten Volltexten, die eine umfassendere inhaltliche Analyse ermöglichten.

Testergebnisse

Testergebnisse mit Beschreibungstexten

neutralness_distribution_original_repeat_20241015_101349.png

Werteverteilung Original

Werteverteilung KI (Beschreibungstexte)

04b8f8bf3b01ea1489b8b774bf9882da71ca01ee03b514e2a3602661.png

Vergleich Original vs KI Scores (Beschreibungstexte)

Verteilung der Abweichungen (Beschreibungstexte)

Durchschnittliche Abweichung (Beschreibungstexte)

Metriken (Beschreibungstexte)

Evaluationsmetriken

Mean Absolute Error (MAE): 1.0
Mean Squared Error (MSE): 2.6975
Root Mean Squared Error (RMSE): 1.6424
R² Score: -10.002
Pearson-Korrelation: 0.1185

Evaluationsmetriken (Klassifikation mit gerundeten Werten)

Precision: 0.6004
F1-Score: 0.4973

Bereiche

Bereich der Originalscores: 2 bis 5
Bereich der vorhergesagten Scores: 0 bis 5.0

Auszug aus den Antworten

Testergebnisse mit Volltexten

neutralness_distribution_original_repeat_20241016_010639.png

Wertverteilung Original

Werteverteilung KI (Volltexte)

8226d67f1f91863af042ef915fc6927e68fee79e6061584865899309.png

Vergleich Original vs KI Scores (Volltexte)

Verteilung der Abweichungen (Volltexte)

Durchschnittliche Abweichung (Beschreibungstext)

Metriken (Volltexte)

Evauluationsmetriken:

Mean Absolute Error (MAE): 1.2823
Mean Squared Error (MSE): 3.7673
Root Mean Squared Error (RMSE): 1.941
R² Score: -14.3652
Pearson-Korrelation: 0.0374

Evaluationsmetriken (Klassifikation mit gerundeten Werten)

Precision: 0.5426
F1-Score: 0.4297

Hinweise zu den Metriken

Precision misst, wie genau die positiven Vorhersagen des Modells sind. Ein Wert von 0.85 bedeutet, dass 85% der als positiv vorhergesagten Fälle tatsächlich korrekt waren, während 15% falsch positive Vorhersagen waren.
F1 Score ist das harmonische Mittel von Precision und Recall und gibt ein ausgewogenes Maß der Modellleistung. Ein F1 Score von 0.75 zeigt, dass das Modell eine gute Balance zwischen Genauigkeit (Precision) und Vollständigkeit (Recall) der Vorhersagen findet.
Mean Absolute Error (MAE) gibt den durchschnittlichen absoluten Unterschied zwischen den vorhergesagten und den tatsächlichen Werten an. Ein MAE von 2.3 zeigt, dass die Vorhersagen im Durchschnitt um 2.3 Einheiten (z. B. Punkte) vom tatsächlichen Wert abweichen.
Mean Squared Error (MSE) misst den Durchschnitt der quadrierten Fehler. Ein Wert von 10 bedeutet, dass größere Fehler stärker betont werden, und ein niedriger MSE zeigt eine gute Modellleistung an.
Root Mean Squared Error (RMSE) ist die Quadratwurzel des MSE und gibt den Fehler in derselben Einheit wie die Zielvariable an. Ein RMSE von 3.2 zeigt, dass der durchschnittliche Fehler bei etwa 3.2 Einheiten (z. B. Punkten) liegt.
R² Score misst, wie gut die Varianz der Zielvariable durch das Modell erklärt wird. Ein R² von 0.92 bedeutet, dass das Modell 92% der Varianz erklären kann, was auf eine gute Passung hinweist.
Pearson-Korrelation misst die lineare Beziehung zwischen den vorhergesagten und den tatsächlichen Werten. Ein Wert von 0.88 zeigt eine starke positive lineare Korrelation, d. h., die Vorhersagen folgen den tatsächlichen Werten sehr gut.
Durchschnittliche Abweichung zeigt den durchschnittlichen Unterschied zwischen den AI-bewerteten und den Originalwerten an. Eine Abweichung von 1.1 bedeutet, dass die KI-Bewertungen im Durchschnitt um 1.1 Einheiten vom tatsächlichen Wert abweichen, was auf eine hohe Übereinstimmung hindeutet.

Analyse der Sonderfälle

offen

Auswertung der Ergebnisse

Die vorliegende Untersuchung bewertet die Fähigkeit des Large Language Models zur Einschätzung der Neutralität von Bildungsinhalten. Die Ergebnisse zeigen, dass das Modell bei Beschreibungstexten eine durchschnittliche absolute Abweichung (MAE) von 1,0 aufweist, mit einer Precision von 0,6004 und einem F1-Score von 0,4973. Diese Werte deuten auf eine moderate Übereinstimmung mit den redaktionellen Bewertungen hin, wobei die kürzeren und prägnanteren Beschreibungstexte eine bessere Bewertungskapazität des Modells ermöglichen.

Bei den Volltexten hingegen beträgt die MAE 1,2823, die Precision 0,5426 und der F1-Score 0,4297. Diese höheren Abweichungen und niedrigeren Metriken verdeutlichen die Schwierigkeiten des Modells bei der Analyse längerer und komplexerer Texte. Mögliche Einflussfaktoren sind u.a. eine in den Beschreibungstexten enthaltene Wertung durch die Redaktionen oder eine höhere Textqualität.

Insgesamt demonstriert das LLM ein potenziell wertvolles Werkzeug zur Unterstützung redaktioneller Prozesse bei der Neutralitätsprüfung von Bildungsinhalten, insbesondere für kürzere Texte. Für eine zuverlässigere Bewertung komplexerer Volltexte sind jedoch weitere Forschungs- und Optimierungsmaßnahmen erforderlich, um die Genauigkeit und Konsistenz der Bewertungen zu verbessern.

Fazit

Das LLM konnte in einem breiten Spektrum von Bildungsinhalten eine angemessene Bewertung der Neutralität liefern. Die erzielten Ergebnisse zeigen, dass es als Unterstützung für redaktionelle Bewertungsprozesse wertvolle Einblicke bieten kann, insbesondere bei der Identifikation von potenziell einseitigen oder ideologisch geprägten Inhalten.

Gleichzeitig weist die Analyse darauf hin, dass die KI bei längeren, komplexeren Volltexten größere Schwierigkeiten hat, was weiteren Forschungsbedarf nahelegt. Weitere Tests könnten untersuchen, ob und wie das LLM durch zusätzliche Trainingseinheiten oder feinere Anpassungen des Prompts besser in der Lage ist, die volle inhaltliche Tiefe und den pluralistischen Anspruch von Volltexten zu erfassen.

OEde

Bewertung durch LLM (Multiscore)

Abstract

Erstellung des Test-Datensatzes

Abruf der Rohdaten

Anreicherung der Rohdaten mit Volltexten

Filterung der Rohdaten

LLM und Prompt

LLM-Model

Promptentwicklung

Berechnungs des Scoring

Gewichtete Rohpunktzahl bestimmen

Gewichtete Maximalpunktzahl bestimmen

Bildung des Gesamtscore

Einbezug der Überzeugung

Normalisierung auf ganze Zahlen (Punkte)

Analyse des Testdatensatzes

Verteilung der Daten

Analyse der Textqualität

Textanalyse der Beschreibungstexte

Textanalyse Volltexte

Testdurchführung

Aufbau des Tests

Testergebnisse

Testergebnisse mit Beschreibungstexten

Evaluationsmetriken

Evaluationsmetriken (Klassifikation mit gerundeten Werten)

Bereiche

Auszug aus den Antworten

Testergebnisse mit Volltexten

Evaluationsmetriken (Klassifikation mit gerundeten Werten)

Hinweise zu den Metriken

Analyse der Sonderfälle

Auswertung der Ergebnisse

Fazit

Anlage