Versuchsziel

Es soll untersucht werden, ob ein LLM basierend auf vorgegebenen Metadaten (Beschreibungstexte und Volltexte von Bildungsinhalten), die Neutralität eines Datensatzes auf einer vorgegebenen Skala von 0 bis 5 in vergleichbarer Form bewertet, wie dies zuvor durch Fachredaktionen erfolgt ist.

Erstellung des Test-Datensatzes

Grundlage sind Datensätze mit Bildungsinhalten der Plattform www.Wirlernenonline.de.

Für eine Teilmenge der Datensätze liegen Bewertungen für Neutralität vor. Diese wurden auf einer durch die Redaktionen aufgestellten Skala von 0 bis 5 bewertet und werden zur Qualitätseinschätzung genutzt.

Abruf der Daten

Die Daten wurden über die WLO Rest-API-Schnittstelle mit der Customsuche abgerufen.

Dazu wurde eine Kombination des Felds: ccm:oeh_quality_neutralness mit den Werten: 0, 1, 2, 3, 4, 5 genutzt. Der Datensatz wurde als JSON-Datei gespeichert.

Anreicherung der Datensätze mit Volltexten

In den Datensätzen sind Beschreibungstexte der Bildungsinhalte enthalten. Um einen Vergleich mit Volltexten durchführen zu können, wurden die URL aus dem Feld: ccm:wwwurl ausgelesen und die Inhalte der Webseiten extrahiert.

Zum Einsatz kam hierbei die Python Bibliothek Goose3, die intern BeautifulSoup nutzt und überflüssige Textbestandteile z.B. zur Struktur der Webseite mittels NLP-Techniken entfernt. Das Script wird im Anhang aufgeführt.

Die Volltexte, sowie Zusammenfassungen und Keywords wurden dann als additional_data in die JSON gespeichert und den Datensätzen zugeordnet.

Bei Datensätzen, für die Goose3 keinen Volltext generieren konnte (z.B. aufgrund eines sehr kleinen Textkorpus), wurden die Zusammenfassungen genutzt, die von Goose3 aus allen verfügbaren Infos der Webseiten gebildet werden.

Filterung der Rohdaten

Aus den zuvor erstellten Rohdaten wurde ein Test-Datensatz erstellt, der die notwendigen Kriterien erfüllt, u.a. nicht-leere Felder für die im Test relevanten Metadaten sowie eine Mindestlänge der für den Test genutzten Textfelder (Beschreibungstexte und Volltexte). Dieser Schritt soll sicherstellen, dass ausreichend Textmaterial für eine Bewertung vorliegt.

Verarbeitungsschritte für den Datensatz:

Entfernung von Datensätzen, bei denen folgende Felder nicht mit Werten gefüllt sind:
- properties.cclom:general_description (Beschreibungstexte)
- additional_data.full_text (Volltexte)
- properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)
Entfernung von Datensätzen, bei denen die Zeichenlänge der Texte nicht mind. 60 Zeichen hat
- properties.cclom:general_description (Beschreibungstexte)
- additional_data.full_text (Volltexte)
Reduktion und Normalisierung der Anzahl der Datensätze auf 2000
- unter Einbezug der Felder: properties.ccm:oeh_quality_neutralness und properties.ccm:taxonid (Disziplinen)
- Nutzung eines zyklischen Rundlaufverfahrens (Round Robin) zur Gleichverteilung

LLM und Prompt

LLM-Model

Für den Test wurde ein aktuelles LLM-Model genutzt, das aufgrund seiner niedrigen Kosten praxisnah ist: gpt-4o-mini (openai).

Der Test kann auch mit den meisten anderen LLM durchgeführt werden, jedoch ohne zwangsläufig die gleichen Ergebnisse zu erzielen. Ein Test mit weiteren Modelle erscheint sinnvoll.

Es ist davon auszugehen, dass ein erneuter Durchlauf mit dem gleichen Model auch nicht immer die gleichen Ergebnisse liefern wird.

Promptentwicklung

Grundlage des Prompts ist die zuvor genannte redaktionelle Skala. Diese wurde ausformuliert, um dem LLM eine genauere Einschätzung der Stufen zu ermöglichen.

Anschließend wurde der Prompt mit dem Promptverbesserungs-Tool “Generate” auf dem openai Playground verbessert (https://platform.openai.com/playground/chat ). Dieses strukturiert den Prompt maschinenlesbar, fügt Markdown-Formatierungen und passende Rückfragen zur Selbstreflexion hinzu.

Neben dem Scoring soll der Prompt auch eine kurze Begründung seiner Bewertung ausgeben, um die Ergebnisse später nachprüfen zu können.

Finaler Prompt:

Bewerte die Neutralität und Verfassungskonformität eines Bildungsinhalts
auf einer Skala von 0 bis 5 anhand der folgenden Kriterien.

Berücksichtigen Sie aktuelle Diskussionen über Menschenrechte,
das Grundgesetz der Bundesrepublik Deutschland und die Anforderungen
an schulische Bildung. Begründen Sie die Bewertung ausführlich,
indem Sie erklären, warum Sie sich für den gewählten Wert entschieden
haben und warum andere Werte nicht zutreffen.

## Bewertungskriterien

- **0 (manipulativ oder verfassungswidrig):** Der Text enthält manipulative Aussagen, die darauf abzielen, den Leser in eine bestimmte Richtung zu drängen. Der Text verstößt gegen verfassungsrechtliche Grundprinzipien, wie die Achtung der Menschenwürde oder demokratische Grundwerte (z. B. Förderung von Hassrede, Diskriminierung, Gewalt oder Verherrlichung verfassungswidriger Symbole).

- **1 (unneutral oder problematisch):** Der Text zeigt deutliche Anzeichen von Einseitigkeit oder Voreingenommenheit. Inhalte sind zwar verfassungskonform, aber sie verletzen möglicherweise das Neutralitätsgebot, indem sie eine extreme oder engstirnige Sichtweise auf sensible Themen wie Politik, Religion, Menschenrechte, Sexualität oder Identität vertreten, ohne Alternativen oder Gegensätze zu beleuchten.

- **2 (ideologisch eingefärbt, aber verfassungskonform):** Der Text ist von einer bestimmten ideologischen Ausrichtung geprägt, aber die Inhalte sind verfassungskonform und korrekt. Es wird jedoch nur eine Seite des Themas beleuchtet, und es fehlen ausgewogene Perspektiven.

- **3 (ideologisch eingefärbt, aber transparent und pluralistisch):** Der Text hat eine erkennbare ideologische Ausrichtung, aber diese wird transparent gemacht. Der Autor stellt offen dar, dass es alternative Perspektiven gibt, die ebenfalls verfassungskonform sind. Der Inhalt wahrt das Gebot der Pluralität, wie es in der schulischen Bildung gefordert wird.

- **4 (neutrale und ausgewogene Formulierung):** Der Text verwendet eine sachliche und ausgewogene Formulierung ohne erkennbare ideologische Voreingenommenheit. Er beleuchtet das Thema von verschiedenen verfassungskonformen Standpunkten und berücksichtigt Menschenrechte und demokratische Werte, wie sie im Grundgesetz verankert sind.

- **5 (neutrale Formulierung von einem unabhängigen, wissenschaftlich fundierten Autor):** Der Text ist vollständig neutral formuliert, ohne ideologische oder politische Voreingenommenheit. Er stammt von einem nachweislich unabhängigen und wissenschaftlich fundierten Autor oder einer Institution, die keine politischen oder ideologischen Interessen vertritt. Der Inhalt entspricht höchsten Standards der Verfassungstreue, Menschenrechte und Anforderungen der Schulbildung.

# Steps

1. **Analysiere den Text:** Identifizieren Sie alle relevanten Informationen und Aspekte, die auf Neutralität und Verfassungskonformität hin überprüft werden müssen.

2. **Bewerten Sie anhand der Skala:** Wählen Sie den zutreffenden Wert von 0 bis 5 basierend auf Ihrer Analyse.

3. **Begründung:** Erläutern Sie Ihre Bewertung. Begründen Sie in maximal drei Sätzen, warum Sie sich für diesen Wert entschieden haben. Gehen Sie darauf ein, warum andere Werte nicht passend sind.

# Output Format

- Eine einzelne Zahl von 0 bis 5.
- Eine nachfolgende Begründung in maximal 3 Sätzen.

# Beispiele

**Input:**
Text über das Grundgesetz der Bundesrepublik Deutschland.

**Output:**
4
"Der Text beinhaltet eine sachliche und ausgewogene Formulierung verschiedener verfassungskonformer Standpunkte und respektiert demokratische Werte. Er vermeidet extreme Sichtweisen und beleuchtet diverse Perspektiven. Andere Werte treffen nicht zu, da keine einseitige ideologische Ausrichtung erkennbar ist."

Analyse des Testdatensatzes

Die Bildungsinhalte von Wirlernenonline.de haben den Schwerpunkt auf Schulbildung.

Die Scorings für die Bewertung der Neutralität sind vor allem bei redaktionell gepflegten Inhalten vorhanden, die über die höchste Qualitätsstufe verfügen. Es gibt daher keine Gleichverteilung der Neutralitätswerte, sondern vorwiegend höher eingestufte Inhalte (4 und 5 auf der Skala). Es sollte geprüft werden, ob zukünftige Tests mit weiteren Daten oder synthetisch erzeugten Muster angereichert werden können.

Die Qualität der Beschreibungstexte und Volltexte wurden mit verschiedenen Metriken bestimmt.

Interpretation der Textqualität

Die Volltexte sind mit durchschnittlich 860 Zeichen länger als die Beschreibungstexte (228 Zeichen).

Die Verteilung der Sprachen ist zwischen beiden Feldern vergleichbar.

Unterschiede ergeben sich in der Sentiment-Analyse. Beschreibungstexte sind weniger emotional formuliert, was für eine höhere Qualität im Hinblick auf den Aspekt Neutralität sprechen kann.

Der SMOG-Index zeigt, dass die Beschreibungstexte mit weniger formaler Bildung zu verstehen sind, als die Volltexte. Ein Grund hierfür könnte die redaktionelle Aufbereitung sein.

Beschreibungstexte

Volltexte

Verteilung der Daten

Ein Großteil der Datensätze ist den Disziplinen: Informatik, Chemie, Physik, Mathematik und Darstellendes Spiel zuzuordnen. Fast alle Inhalte wurden auf der Skala mit 4 oder 5 bewertet, was jedoch im Rahmen der Erwartungen liegt.

Testdurchführung

Für die Testdurchführung wurde ein Python-Script genutzt, das ausgewählte Metadatenfelder aus JSON an den Prompt übergibt und das Scoring sowie die Begründung dokumentiert. Anschließend werden diverse Metriken aus dem Vergleich von Originaldaten und KI-generierten Daten gebildet. Eine hohe Übereinstimmung würde auf eine erfolgreiche Bewertung durch die KI hindeuten.

Das Python-Script ist in der Anlage zu finden.

Testergebnisse