Table of Contents

style	none

Versuchsziel

...

Zusammenfassung

Ziel war es, zu überprüfen, ob ein LLM in der Lage ist, die Neutralität von Bildungsinhalten (basierend auf vorgegebenen Metadaten (Beschreibungstexte und Volltexte von Bildungsinhalten), die Neutralität eines Datensatzes auf einer vorgegebenen Skala von 0 bis 5 Beschreibungs- und Volltexten) in vergleichbarer Form bewertetzu bewerten, wie dies zuvor durch Fachredaktionen erfolgt istdurch menschliche Akteure geschieht.

Aus der von Fachredaktionen genutzten Skala zur Einschätzung der Neutralität wurde ein Prompt entwickelt. Dann wurden ki-gestützte Bewertungen von Inhalten gebildet, für die bereits eine Einschätzung der Neutralität vorlag. Dies erfolgte mit 2000 Datensätzen in 2 Testreihen. Testreihe 1 nutzte Beschreibungstexte der Inhalte und Testreihe 2 die von den Webseiten abgerufenen Volltexte. Anschließend wurden die Werte mit Hilfe verschiedener Metriken verglichen.

Die Volltexte hatten im Schnitt 4 mal mehr Zeichen als die Beschreibungstexte, zeigten aber in einigen Metriken eine höhere Betonung von Gefühlen und höhere Anforderungen an ihr Verständnis.

Der Testdurchlauf mit den Beschreibungstexten erreichte eine durchschnittliche absolute Abweichung (MAE) von 0,62 Punkten auf der Neutralitäts-Skala und eine übereinstimmende Bewertung bei mehr als der Hälfte der Datensätze. Die Werteverteilung der KI-Bewertung liegt dabei nah an der Verteilung der Originalwerte.

Erstellung des Test-Datensatzes

...

Versions Compared

Old Version 6

New Version 7

Key

Versuchsziel

Zusammenfassung

Erstellung des Test-Datensatzes

Page Comparison

Versions Compared

Old Version 6

New Version 7

Key

Versuchsziel

Zusammenfassung

Erstellung des Test-Datensatzes