Bewertung durch LLM - Vergleich Testreihen
Vergleich der Testreihen
Der Multiscoretest zeigte eine durchschnittliche absolute Abweichung (MAE) von 1,0 bei Beschreibungstexten und 1,28 bei Volltexten. Die Precision lag bei 0,6004 bzw. 0,5426, und der F1-Score bei 0,4973 bzw. 0,4297. Diese Werte deuten auf eine moderate Übereinstimmung der KI-Bewertungen mit den redaktionellen Einschätzungen hin, wobei die kürzeren Beschreibungstexte eine bessere Bewertungskapazität des Modells ermöglichten.
Im Singlescoretest hingegen betrug die MAE für Beschreibungstexte 0,62 und für Volltexte 0,92. Die Precision lag bei 0,59 für Beschreibungstexte und 0,58 für Volltexte, während der F1-Score 0,55 bzw. 0,49 erreichte. Diese verbesserten MAE-Werte im Vergleich zum Multiscoretest könnten auf die Verwendung der redaktionellen Skala, als Basis zurückzuführen sein, die weniger granular ist und somit weniger Fehlinterpretationsmöglichkeiten bietet. Die ähnlich niedrigen Precision- und F1-Score-Werte bestätigen jedoch, dass die Genauigkeit der Klassifikationen vergleichbar bleibt, unabhängig vom Bewertungsansatz.
Interpretation und Implikationen
Die geringere MAE im Singlescoretest deutet darauf hin, dass ein vereinfachtes Bewertungssystem effizienter sein kann, wenn es darum geht, die Gesamtneutralität eines Textes zu erfassen. Dies könnte insbesondere dann von Vorteil sein, wenn eine schnelle und weniger ressourcenintensive Bewertung gewünscht wird. Die Antwortenzeiten des LLM waren im Multiscoretest deutlich länger.
Allerdings zeigt die vergleichbare Performance in Precision und F1-Score, dass die Genauigkeit der Klassifikationen nicht signifikant von der Detailtiefe des Bewertungssystems abhängt.
Fazit
Der Multiscoretest bietet den Vorteil einer detaillierten Analyse, die tiefere Einblicke in spezifische Aspekte der Neutralität ermöglicht. Dies ist besonders nützlich für eine differenzierte Bewertung und zur Identifikation spezifischer Schwachstellen in den Bildungsinhalten. Der Singlescoretest hingegen bietet eine pragmatischere und schnellere Bewertungsmöglichkeit, die dennoch eine angemessene Übereinstimmung mit den redaktionellen Bewertungen aufweist.
Schlussfolgerungen und Ausblick
Beide Bewertungsansätze zeigen, dass LLMs ein wertvolles Werkzeug zur Unterstützung redaktioneller Prozesse bei der Bewertung der Neutralität von Bildungsinhalten darstellen können. Der Multiscoretest ermöglicht eine tiefgehende Analyse, während der Singlescoretest eine effizientere Gesamtbewertung bietet.