Document toolboxDocument toolbox

4.4 Automatische Qualitätsprüfung

Motivation und Überblick test

Um die Arbeit der Redaktionen und Fachredaktionen zu erleichtern, werden Services entwickelt und eingesetzt, die bei der Qualitätsprüfung der aggregierten Materialien helfen sollen. Ziel ist es, die Materialien schneller nutzbar zu machen und das Sucherlebnis für die Nutzer*innen zu verbessern, indem die Metadaten zu den Materialien hinzugefügt und verbessert werden. Einige dieser Qualitätstests können mit Hilfe verschiedener Tools automatisiert werden. Beispielsweise lässt sich leicht überprüfen, ob eingesammelte Materialien auf bekannten "Blocklisten" jugendgefährender Medien liegen, eine Seite Werbung enthält oder grundständige Accessibility-Kriterien erfüllt werden.

Wird bei der Qualitätsprüfung hingegen festgestellt, dass bestimmte Attribute gar nicht vorhanden sind, beispielsweise das Schulfach, müssen andere Services genutzt werden. Hierbei wurden bereits einige KI-Services entwickelt und in die Plattform eingebunden, die das Schließen solcher nicht-vorhandenen Attribute ermöglichen sollen. Besonders herausfordernd ist dabei der Umstand, dass solche Verfahren "angelernt" werden müssen, d.h. die Maschinen müssen anhand vorhandener Daten lernen können, um gute Zuordnungen vorschlagen zu können. Hierbei helfen die bereits von den Fachredaktionen einsortierten Materialien, die als Lerngrundlage dienen können. Die Konzepte, Ideen und Prototypen für eine maschinell gestützte Einordnung von Materialien zu Schulfächern sowie Lehr- und Kompetenzplänen findet sich in 4.5 KI - Interaktion zwischen Mensch und Maschine.

Im folgenden werden nun die Verfahren vorgestellt, die bei der automatischen Qualitätsprüfung eingesetzt werden.

Vorarbeiten / Ist-Stand

In der Redaktionsumgebung von WirLernenOnline landen die Materialien auf einem sogenannten "Prüftisch" und können dort von den (Fach-)Redakteur*innen begutachtet werden. Dabei werden sie durch den Prüfprozess geleitet, bei dem die Metadaten entsprechend der definierten Qualitätskriterien abgeprüft werden und ggf. ergänzt werden können. Die erwähnten Services, die eine automatische Prüfung des Materials vornehmen werden hier genutzt und liefern Daten, um die Arbeit und Prüfung der Redaktion zu erleichtern.



Screenshots:

Technische Lösung

Im Zuge des WirLernenOnline-Projektes sind bereits einige Services entwickelt worden, die bei der Qualitätssicherung unterstützen und die in die Redaktionsumgebung von WirLernenOnline eingebunden wurden. Hier findet sich eine Liste der Attribute, welche identifiziert und durch technische Untersuchungen abgleitet werden können:

Qualitätsmetadaten

  • Barrierefreiheit alias Accessibility
    • Dieses Merkmal gibt an, ob die Webseite barrierefrei nach Google Lighthouse ist. Dafür wird eine Punktezahl für mobile Endgeräte und Desktop-PCs berechnet. Deren Mittelwert wird benutzt, um eine Aussage über die Barrierefreiheit zu treffen. Ist der Mittelwert hoch genug, gilt Barrierefreiheit als true.
  • Cookies
    • Dieses Merkmal liest die Cookies ein, die von der Webseite benutzt werden. Wird eines dieser Cookies als unsicher dargestellt, so wird dieses Merkmal als false definiert. Idealerweise sollte eine Webseite so wenig Cookies wie möglich laden, bevor der Verwendung von Cookies (s. DSGVO) zugestimmt wird. Da diese Zustimmung nicht erfolgt, sollten keine oder wenige Cookies geladen werden.
  • Dateiextrahierbarkeit alias ExtractFromFiles
    • Dieses Merkmal untersucht die herunterladbaren Dateien einer Webseite darauf, ob diese als Volltext gelesen werden können. Unterstützte Dateiformate sind derzeit .docx und .pdf. Wenn mehr als die Hälfte aller Dateien extrahiert werden können, so gilt dieses Merkmal als true.
  • DSGVO alias GDPR
    • Dieses Merkmal untersucht die Übereinstimmung der Webseite mit den Anforderungen der DSGVO. Da dieses Merkmal eine juristische Behandlung nicht erfüllen kann, wird dieses Merkmal stets false anzeigen.
    • verschiedene Eigenschaften bzw. Fragestellungen der Webseite werden untersucht und hinterlegt

      • Verlinkt die Seite nur auf sichere HTTPS Webseiten?
        Ist HTTP Strict Transport Security (HSTS) eingeschaltet? Falls ja: Sind sicherheitsrelevante Eigenschaften von HSTS optimal gesetzt?
        Ist die referrer-policy optimal eingestellt?
        Werden keine externen Fonts geladen und falls doch, welche?
        Werden keine kompromittierende Eingaben gefordert und falls doch, welche?
        Befindet sich ein Link auf das Impressum der Webseite. Dies sagt nichts darüber aus, ob das Impressum korrekt ist.

  • Gefährliche Dateierweiterungen alias MaliciousExtensions
    • Dieses Merkmal untersucht, ob und welche bekannten gefährlichen Dateiendungen in Dateien der Webseite vorkommen. Beispiele enthalten, u. a., .exe, .com und .dll. Dieses Merkmal ist noch recht grob und wird false sobald irgendeine Datei mit solch einer Endung gefunden wird.
  • Metabeschreibungsentdecker alias MetatagExplorer
    • Dieses Merkmal sammelt alle meta HTML Elemente der Webseite für zukünftige Auswertung nach Produktivlauf. Da es derzeit rein explorativ ist, wird dieses Merkmal stets unknown als isHappyCase zurückgeben.

  • Sicherheit alias Security
    • Dieses Merkmal untersucht verschiedene HTML-Header Eigenschaften, um Aussagen über optimal konfigurierte Sicherheitseinstellungen zu liefern. Sind alle Eigenschaften gesetzt, so gibt dieses Merkmal true zurück, d. h., es ist strikt. Es ist zu erwarten, dass nur die wenigsten Webseiten dieses Merkmal erfüllen.
  • Werbung alias Advertisement
    • Dieses Merkmal nutzt Adblock-Listen, um Werbung, ungewollte Frames, Bilder und Objekte zu erkennen. Diese Listen werden für Browser-Plugins zur Werbungsblockierung eingesetzt. Wird ein Werbeelement entdeckt, so wird dieses Merkmal auf false gesetzt.
  • Privatsphäre alias EasyPrivacy
    • Dieses Merkmal untersucht ob bspw. Tracker u. ä. auf der Webseite eingesetzt werden um die Privatsphäre des Nutzenden zu kompromittieren. Es nutzt dafür gepflegte open-source Online-Listen. Wird ein entsprechendes Element entdeckt, so wird dieses Merkmal auf false gesetzt.
  • FanboyAnnoyance
    • Dieses Merkmal versucht „nervige“ Elemente zu entdecken, bspw. Pop-Ups. Es nutzt dafür gepflegte open-source Online-Listen. Es reduziert signifikant die Ladezeiten. Der Name Fanboy ist der Alias eines Software-Ingenieurs: https://github.com/ryanbr.
    • Da die Einschätzung, ob ein Element als nervig gilt rein subjektiv ist, ermöglicht dieses Merkmal anhand eines großen Fundus an Informationen automatisiert solche Elemente zu erkennen. Es eliminiert aufwändiges Suchen durch Menschen und subjektive Entscheidungen.
  • Benachrichtigungen alias FanboyNotification
    • Dieses Merkmal untersucht, ob die Webseite Elemente beinhaltet, die versuchen Benachrichtigungen auf dem Endgerät zu erzeugen. Es nutzt dafür gepflegte open-source Online-Listen. Der Name Fanboy ist der Alias eines Software-Ingenieurs: https://github.com/ryanbr.

Sprachekennung von Materialien

Einige Dokumente enthalten keine Metadaten über die verwendete Sprache. Deshalb wurde ein Service implementiert, der zu gegebenen Texten die im Text vorhandenen Sprachen identifiziert.

Z.B. liefert der Algorithmus für folgenden Text:

"Victor jagt zwölf Boxkämpfer quer über den großen Sylter Deich. The quick brown fox jumps over the lazy dog."

Die Werte:

en 0.5714256620210416
de 0.4285713688317989

Die Implementierung ist im GitHub zu finden unter:

https://github.com/yovisto/wlo-langdetect

Weitere wünschenswerte Funktionen

Zusätzlich zu den bereits genannten Attributen, könnte die automatisierte Erstellung folgender Eigenschaften die Zugänglichkeit zu Lehrinhalten erhöhen und die Barrierearmut verringern:

  • Audiotranskriptionen
  • Videotranskriptionen
  • Bildbeschreibung (Alt Texte)

Für die Erstellung dieser Daten gibt es momentan noch keine frei nutzbaren und eingebundenen Services.

Herausforderungen bei der Einbindung in das Redaktionssystem

  • Wie können wir die Einbindung in das Redaktionssystem verbessern?
    • Umbau der DB-Struktur, um sich mehr KI-Metadaten merken zu können / Performanz
    • Regelmäßige Abfrage der KI-Dienste mit den Datensätzen und Persistierung der Ergebnisse
    • Darstellung der von der KI geschlussfolgerten Daten und Auswahl durch den Redakteur

<< Zurück zur Startseite / Gesamtinhaltsverzeichnis



Inhalt dieser Seite


Mitwirkende an dieser Seite:

UserEditsCommentsLabels
Das Luka 100