Generieren von Qualitätsmetadaten

Allgemeines

Für die Generierung von Qualitätsmetadaten ist meistens der Inhalt des Materials essentiell. Hierfür würde sich das Feld content.fulltext anbieten, welches für manche Provider (z.B. OERSI) bereits gefüllt ist. Für andere Provider (z.B. YouTube, Bundeszentrale für politische Bildung, Serlo) existiert dieses Feld zwar, ist aber leer.

Für Textdaten (z.B. pdf-Dateien, Blogeinträge) sollte das Abgreifen dieser relativ trivial sein.
Manche Videodatenquellen (insbesondere YouTube) erlauben es, die Untertitel eines Videos herunterzuladen, welche als Inhalt verwendet werden.
- Diese sind teilweise automatisch generiert und damit nicht vollkommen korrekt.
Für Bilder müsste ein Texterkennungstool verwendet werden.

Der Kontext eines Inhalts kann bereits durch dessen Metadaten (insb. Lehrplanthemen und Zielgruppe) abgebildet werden. Diese sind teilweise jedoch nicht vollständig, sodass Tools zur Füllung dieser hilfreich wären (insb. Themenerkennung, siehe /wiki/spaces/ITsJOINTLY/pages/68223022).

Sachrichtigkeit

Studie über den Stand der Forschung und Potenziale für WLO zu “Sachrichtigkeit in Large Language Models”

Sehr komplex und kontextabhängig. Für einzelne Bereiche (z.B. Mathematik) realistischer als für andere.

Ggf. sinnvoller als erster Ansatz: nur automatische Erkennung und Auflistung von Aussagen.
- Simple Aussagen (z.b. “Angela Merkel hat einen Doktor der Naturwissenschaften”) könnten über vorhandene Wissensstrukturen überprüft werden; idealerweise zusätzlich mit einer Einschätzung der Sicherheit.
- Erkannte Aussagen könnten für weitere KI-Themen genutzt werden (z.B. /wiki/spaces/ITsJOINTLY/pages/68223022).

Vereinfachter Nachbau Sachrichtigkeits-Proc aus der Studie: https://github.com/janschachtschabel/factualcorrectnessai
Google Colab Notebook Sachrichtigkeit:
https://colab.research.google.com/drive/1BppO2CJnAz4TYIRlkTZSiqyFxxsTwb6t?usp=sharing (bearbeitet)

Neutralität

Neutralität - Konzept und Bewertung

Denkbar, aber kontextabhängig. Für Texte könnte Sentiment-Analysis verwendet werden.

Hilfreich: Anzeigen, welche Abschnitte als problematisch eingestuft wurden, ggf. inklusive Sicherheit und mit Einbezug auf Kontext (z.B. “Zwar scheint dieser Abschnitt nicht neutral, aber aufgrund des Themas ‘Fake News’ wurde er als wahrscheinlich unproblematisch eingestuft”).

Aktualität

Technisch leicht zu überprüfen (Datum des Inhalts). Danach denkbar, regelbasiert, z.B. unter Berücksichtigung der Lehrplanthemen, eine Aussage zu treffen.

Für Websiten: Copyright Datum überprüfen

Implementierungsdesignmöglichkeit:

Regelbasiert
Eine Regel besteht aus:
- dem passenden Kontext (eine Query an die Daten)
- die Regel, die entscheidet, ob der Inhalt aktuell ist (z.B. Wertung, wie alt ein Inhalt sein darf und weitere Kriterien, nach denen entschieden wird)
Möglicherweise separate Einschätzung, wie aktuell (z.B. in Tagen) der Inhalt ist, ohne Wertung, ob dies zu alt ist.
Neue Features (z.B. Überprüfung von Sub-Links) können dynamisch hinzugefügt werden.

Ebenfalls von Interesse: “Content freshness” in SEO.

Passung

Prinzipiell einfach zu ermitteln für Text, mithilfe von Lesbarkeitsindices wie Flesch-Lesbarkeit (bereits Implementiert im Lesezeit-Service). Diese sind jedoch rudimentär und beachten das benutzte Vokabular nur bedingt (hierfür könnte z.B. ein Ranking der meistbenutzen Wörter genutzt werden).

Unklar: wie hängt diese Eigenschaft mit der Bildungsstufe zusammen? Kann ein Inhalt mit einer Bildungsstufe assoziiert werden, für die er nicht passt?
- Falls nein:
  Dann wäre es denkbar, die Vorhersage der Bildungsstufe mit der, der Passung zu kombinieren. So könnte unter Anderem anhand von Themen (Lehrplanthemen oder /wiki/spaces/ITsJOINTLY/pages/68223022) die Bildungsstufe vorhergesagt werden (Quantenphysik wird in der Regel nicht in der Grundschule unterrichtet). Falls eine unpassende Bildungsstufe auswählt wurde, könnte darauf dann hingewiesen werden.
  Hierfür relevant ist ebenfalls das KI-Themen Lernpfade, da diese benutzt werden können, um die inhaltliche Komplexität einzustufen (ein Thema, das auf einem Thema für Sekundarstufe I aufbaut, ist wahrscheinlich mindestens der Sekundarstufe I zuzuordnen).

Offenheit

Prinzipiell direkt über die Lizens erfassbar und nicht kontextabhängig.

Unklar: was bedeutet “falls sich der Inhalt nicht an die Lizenz hält”? Was muss hier überprüft werden?

Auffindbarkeit

Im Wesentlichen eine Eigenschaft der übergeordneten Website / Quelle, nicht des Inhalts selber.
Es wäre möglich, eine Heuristik aufzusetzen, mit deren Hilfe die Auffindbarkeit von diversen Quellen, anhand von vorher definierten Kriterien (insb. Mindestmetadatenfeldern), zu bewerten.

Außerdem können bereits bestehende Klassifizierungsalgorithmen benutzt werden, um die aufgefundenen Werte zu kontrollieren – sollten sehr viele Inhalte eines Providers von den Vorhersagen unserer Tools abweichen, so könnte es hier Probleme geben.

Rechtliche Unauffälligkeit

Für Text könnten Vorschläge anhand von Sentiment-Analysis, ggf. auch analog zu Neutralität, generiert werden.

Aufgrund der Komplexität des Themas für Videos und Bilder würde sich wahrscheinlich eine bereits bestehende Lösung am ehesten anbieten (bspw. von Microsoft oder Google).

Ggf. könnte man zumindest Listen benutzen, die nicht jugendfreie Inhalte auflisten.