4.4 Automatische Qualitätsprüfung
Services für eine automatische Qualitätsprüfung von Online-Lerninhalten helfen bei der automatisierten Erschließung von Internet-Lerninhalten und -angeboten. Geprüft werden können Aspekte von IT-Sicherheit, Jugendschutz, Barrierfreiheit, Datenschutz. Neuere Prototypen und Konzepte beschäftigen sich mit der automatischen Prüfung der Inhaltequalität. Das meint Sachrichtigkeit, Neutralität, didaktische und mediale Qualität. Prüfergebnisse sind Grundlagen für Metadatengenerierung zu Qualitätseigenschaften.
WirLernenOnline nutzt und entwickelt solche Systeme und Services. Diese Seite beschreibt einige der Konzepte und Erfahrungen. Bisherige Prüfergebnisse werden in der Redaktionsumgebung von WirLernenOnline den Redaktionen als Hinweise für Qualitätsprobleme angezeigt und verweisen auf die Möglichkeiten die sie bieten.
Inhalt dieser Seite
- 1 A) Qualitätchecks in Erschließungsabläufen (Beispiel WirLernenOnline)
- 2 B) Bestehende technische Lösung (Beispiel WirLernenOnline)
- 2.1 B1) MetaLookUp - automatische Qualitätsprüf-Services
- 2.2 Barrierefreiheit alias Accessibility
- 2.3 Cookies
- 2.4 Dateiextrahierbarkeit alias ExtractFromFiles
- 2.5 DSGVO alias GDPR
- 2.6 Javascript
- 2.7 Webseite einbettbar alias IFrameEmbeddable
- 2.8 Gefährliche Dateierweiterungen alias MaliciousExtensions
- 2.9 Metabeschreibungsentdecker alias MetatagExplorer
- 2.10 Sicherheit alias Security
- 2.11 Werbung alias Advertisement
- 2.12 Privatsphäre alias EasyPrivacy
- 2.13 FanboyAnnoyance
- 2.14 Benachrichtigungen alias FanboyNotification
- 2.15 B2) Prototyp und Studie zur automatischen Prüfung von Inhalten auf Sachrichtigkeit
- 3 C) Aktuelle Projekte von WirLernenOnline und Weiterentwicklungen zur automatischen Prüfung
- 3.1 C1) Überarbeitung vorhandener MetaLookUp-Dienste - Auftragenehmer gesucht
- 3.2 Einschätzung - Überblick
- 3.3 Detaillierte Einschätzung / Notizen
- 3.3.1 Python Version
- 3.3.2 Dependencies
- 3.3.3 Dev Dependencies
- 3.3.4 CI / CD
- 3.3.5 Code / Features
- 3.3.6 Randnotizen
- 3.4 C2) Studie automatische Prüfung auf Sachrichtigkeit
A) Qualitätchecks in Erschließungsabläufen (Beispiel WirLernenOnline)
Bevor wertvolle Zeitressourcen von Redaktionen zum Einsatz kommen, um Lern- und Wissensinhalte zu erschließen und auffindbar zu machen, sollten maschinelle Checks unpassendes aussortieren oder zumindest mit einer Warnmeldung markieren.
Außerdem sollten Prüffunktionen die Prüfergebnisse als generierte Metadaten anbieten, so dass diese ersichtlich und mit den Inhalten verknüpft sind.
Die Qualitätprüfung bezieht sich auf 2 Bereiche:
1. Inhaltliche Qualität
Neutralität
(z.B. gegenüber politischen u.a. Richtungen)Sachrichtigkeit
(Faktencheck, Prüfung von Aussagen gegenüber aktuellen wissenschaftlichen Erkenntnisständen)didaktische Qualität
(z.B. angemessene didaktische Reduzierung für das Niveau der Lernzielgruppe oder erfolgversprechender pädagogischer Aufbau, prüfbar auf Basis von pädagogischen Pattern-Datenbanken)mediale Qualität
(z.B. angemessener Medienmix, zeitgemäße Medien und Gestaltung)
2. Nicht-inhaltliche Qualität (Auswahl)
Barrierefreiheit
auf Lerninhalte-Seite enthaltene Werbung
korrekte DSGVO / Datenschutz-Angaben
unpassende Social-Media-Elemente
Abschaltzwang von Ad-Blockern
Trackingfunktionen für Datenerfassung
Pop-Ups und Modal-Dialoge
Paywalls
schädliche Dateien
In der Redaktionsumgebung von WirLernenOnline landen maschinell erschlossene oder von Nutzer*innen vorgeschlagene Materialien auf einem sogenannten "Prüftisch" und können dort von den (Fach-)Redakteur*innen begutachtet werden. Dabei werden sie durch den Prüfprozess geleitet, bei dem die Metadaten entsprechend der definierten Qualitätskriterien abgeprüft werden und gegebenenfalls ergänzt werden können. Die erwähnten Services, die eine automatische Prüfung des Materials vornehmen, werden hier genutzt und liefern Daten, um die Arbeit und Prüfung der Redaktion zu erleichtern.
B) Bestehende technische Lösung (Beispiel WirLernenOnline)
B1) MetaLookUp - automatische Qualitätsprüf-Services
Im Rahmen des WirLernenOnline-Projektes sind nachfolgende Services entwickelt worden. Hier findet sich eine Liste der Metadaten für Qualitätseigenschaften, welche identifiziert und durch technische Untersuchungen abgleitet werden können:
Auf der dazugehörigen Github-Seite des MetaLookUP-Projekts ist beschrieben, wie die Qualitätsprüfung funktioniert und welche Herausforderungen es dabei noch gibt.
Barrierefreiheit alias Accessibility
Dieses Merkmal gibt an, ob die Webseite barrierefrei nach Google Lighthouse ist. Dafür wird eine Punktezahl für mobile Endgeräte und Desktop-PCs berechnet. Deren Mittelwert wird benutzt, um eine Aussage über die Barrierefreiheit zu treffen. Ist der Mittelwert hoch genug, gilt Barrierefreiheit als true
, also als erfüllt.
Cookies
Dieses Merkmal liest die Cookies ein, die von der Webseite benutzt werden und gibt eine Einschätzung zu Sicherheit und Qualität der Webseite auf dieser Basis. Wird eines dieser Cookies als unsicher dargestellt, so wird dieses Merkmal als false
definiert. Idealerweise sollte eine Webseite so wenige Cookies wie möglich laden, bevor der Verwendung von Cookies (s. DSGVO) zugestimmt wird. Da diese explizite Zustimmung nicht erfolgt, sollten keine oder wenige Cookies geladen werden.
Dateiextrahierbarkeit alias ExtractFromFiles
Dieses Merkmal untersucht die herunterladbaren Dateien einer Webseite darauf, ob diese als Volltext gelesen werden können. Unterstützte Dateiformate sind derzeit .docx und .pdf. Wenn mehr als die Hälfte aller Dateien extrahiert werden können, so gilt dieses Merkmal als true
.
DSGVO alias GDPR
Dieses Merkmal untersucht die Übereinstimmung der Webseite mit den Anforderungen der DSGVO. Da dieses Merkmal eine juristische Behandlung nicht erfüllen kann, wird dieses Merkmal stets
false
anzeigen.Verschiedene Eigenschaften bzw. Fragestellungen der Webseite werden jedoch untersucht und hinterlegt:
Verlinkt die Seite nur auf sichere HTTPS Webseiten?
Ist HTTP Strict Transport Security (HSTS) eingeschaltet? Falls ja: Sind sicherheitsrelevante Eigenschaften von HSTS optimal gesetzt?
Ist die referrer-policy optimal eingestellt?
Werden keine externen Fonts geladen und falls doch, welche?
Werden keine kompromittierende Eingaben gefordert und falls doch, welche?
Befindet sich ein Link auf das Impressum der Webseite. – Dies sagt aber nichts darüber aus, ob das Impressum korrekt ist.
Javascript
Dieses Merkmal untersucht, ob und welche Javaskripte ausgeführt werden. Da Javascript potenziell gefährliche Inhalte laden und ausführen kann werden 0 Sterne zurückgegeben, sobald ein Javascript gefunden wurde welcher mittels src
-Attribut von einer anderen Quelle geladen wird.
Webseite einbettbar alias IFrameEmbeddable
Dieses Merkmal untersucht, ob die Webseite in einen IFrame auf einer externen Webseite einbettbar ist.
Gefährliche Dateierweiterungen alias MaliciousExtensions
Dieses Merkmal untersucht, ob und welche bekannten gefährlichen Dateiendungen in Dateien der Webseiten vorkommen. Beispiele enthalten, u. a., .exe, .com und .dll. Dieses Merkmal ist noch recht grob und wird false sobald irgendeine Datei mit solch einer Endung gefunden wird.
Metabeschreibungsentdecker alias MetatagExplorer
Dieses Merkmal sammelt alle meta-HTML-Elemente der Webseite für die zukünftige Auswertung nach Produktivlauf. Da es derzeit rein explorativ ist, wird dieses Merkmal stets unknown als isHappyCase zurückgeben.
Sicherheit alias Security
Dieses Merkmal untersucht verschiedene HTML-Header-Eigenschaften, um Aussagen über optimal konfigurierte Sicherheitseinstellungen zu liefern. Sind alle Eigenschaften gesetzt, so gibt dieses Merkmal true zurück, d.h., es ist strikt. Es ist zu erwarten, dass nur die wenigsten Webseiten dieses Merkmal erfüllen.
Werbung alias Advertisement
Dieses Merkmal nutzt Adblock-Listen, um Werbung, ungewollte Frames, Bilder und Objekte zu erkennen. Diese Listen werden für Browser-Plugins zur Werbungsblockierung eingesetzt. Wird ein Werbeelement entdeckt, so wird dieses Merkmal auf false gesetzt.
Privatsphäre alias EasyPrivacy
Dieses Merkmal untersucht ob bspw. Tracker u. ä. auf der Webseite eingesetzt werden um die Privatsphäre der Nutzenden zu kompromittieren. Es nutzt dafür gepflegte open-source Online-Listen. Wird ein entsprechendes Element entdeckt, so wird dieses Merkmal auf false gesetzt.
FanboyAnnoyance
Dieses Merkmal versucht „nervige“ Elemente zu entdecken, bspw. Pop-Ups. Es nutzt dafür gepflegte open-source Online-Listen. Es reduziert signifikant die Ladezeiten. Der Name Fanboy ist der Alias eines Software-Ingenieurs: https://github.com/ryanbr.
Da die Einschätzung, ob ein Element als nervig
gilt, rein subjektiv ist, ermöglicht dieses Merkmal anhand eines großen Fundus an Informationen automatisiert solche Elemente zu erkennen. Es eliminiert aufwändiges Suchen durch Menschen und subjektive Entscheidungen.
Benachrichtigungen alias FanboyNotification
Dieses Merkmal untersucht, ob die Webseite Elemente beinhaltet, die versuchen Benachrichtigungen auf dem Endgerät zu erzeugen. Es nutzt dafür gepflegte open-source Online-Listen. Der Name Fanboy ist der Alias eines Software-Ingenieurs: https://github.com/ryanbr.
B2) Prototyp und Studie zur automatischen Prüfung von Inhalten auf Sachrichtigkeit
Dokumentation in Arbeit (siehe Abschnitt C - Aktuelle Projekte)
C) Aktuelle Projekte von WirLernenOnline und Weiterentwicklungen zur automatischen Prüfung
Im aktuellen F&E-Projekt zur Weiterentwicklung von WirLernenOnline / edu-sharing werden derzeit bis März 2025 die Weiterentwicklungen von Konzepten und Lösungsbausteinen dokumentiert.
C1) Überarbeitung vorhandener MetaLookUp-Dienste - Auftragenehmer gesucht
MetaLookUp-Dienste sollen im aktuellen F&E-Projekt überarbeitet bzw. aktualisiert werden. Dazu fand eine Analyse statt, die im nachfolgenden Expander dokumentiert ist.
Aufgaben:
Umsetzung der Empfehlungen aus der Analyse
Sichtung verfügbarer Dienste im Internet, die zusätzlich integrierbar sind
agile Abstimmung mit den WLO-Redaktionen zu Prioritäten und nötigen Qualitätsanzeigen, um Bildungsinhalte kuratieren zu können
C2) Studie automatische Prüfung auf Sachrichtigkeit
Vereinfachter PoC des Prüf-Frameworks: https://github.com/janschachtschabel/factualcorrectnessai
Die Studie befasst sich mit der Herausforderung, die Sachrichtigkeit von durch Large Language Models (LLMs) generierten Texten zu validieren. Im Mittelpunkt steht ein innovativer Ansatz, der als "LLM as a Judge" bezeichnet wird. Zunächst wurden spezifische Anwendungsfälle für die Wissensbewertung identifiziert und präzise Kriterien für Sachrichtigkeit entwickelt. Nach einer umfassenden Analyse existierender Bewertungsbenchmarks und des aktuellen Forschungsstands entstand ein neuartiges Vorgehensmodell.
Der zentrale methodische Ansatz basiert auf einem multilateralen Bewertungsprozess, bei dem mehrere LLMs in einem iterativen Verfahren wechselseitig ihre generierten Ausgaben überprüfen. Ein Proof of Concept wurde entwickelt und getestet, wobei die KI-basierten Bewertungen mit menschlichen Einschätzungen verglichen wurden. Die Ergebnisse zeigen hohe Übereinstimmungsraten mit menschlichen Bewertungen und lassen sich durch fortschrittliche Prompting-Techniken noch weiter optimieren.
Der entwickelte Ansatz bietet bedeutende Vorteile: Er ermöglicht eine systematische Prüfung generierter Inhalte, erlaubt einen objektiven Vergleich verschiedener KI-Modelle und ist flexibel für unterschiedliche Anwendungsfälle skalierbar. Die Methode zeigt vielversprechende Ergebnisse für die Qualitätssicherung von KI-generierten Texten und eröffnet neue Perspektiven für den gezielten Einsatz von Large Language Models.
Die gewonnenen Erkenntnisse und die entwickelte Bewertungsmethodik stehen der Community nun als Grundlage für die Integration automatisierter Qualitätssicherungsprozesse zur Verfügung und können sowohl von Forschenden als auch Anwendern genutzt werden, um die Zuverlässigkeit und Präzision ihrer LLM-basierten Systeme kontinuierlich zu verbessern und zu validieren.
X
Vielleicht noch ein abschließender Satz, inwiefern die Ergebnisse genutzt werden oder was die Community jetzt damit anfangen soll?