Content Comparison

Info
…

Table of Contents

Allgemeines

Für die Generierung von Qualitätsmetadaten ist meistens der Inhalt des Materials essentiell. Hierfür würde sich das Feld content.fulltext anbieten, welches für manche Provider (z.B. OERSI) bereits gefüllt ist. Für andere Provider (z.B. YouTube, Bundeszentrale für politische Bildung, Serlo) existiert dieses Feld zwar, ist aber leer.

Für Textdaten (z.B. pdf-Dateien, Blogeinträge) sollte das Abgreifen dieser relativ trivial sein.
Manche Videodatenquellen (insbesondere YouTube) erlauben es, die Untertitel eines Videos herunterzuladen, welche als Inhalt verwendet werden.
- Diese sind teilweise automatisch generiert und damit nicht vollkommen korrekt.
Für Bilder müsste ein Texterkennungstool verwendet werden.

Der Kontext eines Inhalts kann bereits durch dessen Metadaten (

...

insbesondere Lehrplanthemen und Zielgruppe) abgebildet werden. Diese sind teilweise jedoch nicht vollständig, sodass Tools zur Füllung dieser hilfreich wären (

...

insbesondere Themenerkennung, siehe /wiki/spaces/ITsJOINTLY/pages/68223022).

Sachrichtigkeit

Studie über den Stand der Forschung und Potenziale für WLO zu “Sachrichtigkeit in Large Language Models”

...

Die Beurteilung von Sachrichtigkeit ist sehr komplex und kontextabhängig. Für einzelne Bereiche (z.B. Mathematik) aber unter Umständen realistischer als für andere.

...

Ein gegebenenfalls sinnvoller

...

erster Ansatz: nur automatische Erkennung und Auflistung von Aussagen.
- Simple Aussagen (z.

...

- B. “Angela Merkel hat einen Doktor der Naturwissenschaften”) könnten über vorhandene Wissensstrukturen überprüft werden; idealerweise zusätzlich mit einer Einschätzung der Sicherheit.
- Erkannte Aussagen könnten für weitere KI-Themen genutzt werden (z.B. /wiki/spaces/ITsJOINTLY/pages/68223022).

Vereinfachter Nachbau Sachrichtigkeits-Proc aus der Studie: https://github.com/janschachtschabel/factualcorrectnessai
Google Colab Notebook Sachrichtigkeit:
https://colab.research.google.com/drive/1BppO2CJnAz4TYIRlkTZSiqyFxxsTwb6t?usp=sharing (bearbeitet)

Neutralität

Neutralität - Konzept und Bewertung

...

Neutralität ist als Qualitätsmetadaten denkbar, aber kontextabhängig. Für Texte könnte Sentiment-Analysis verwendet werden.

Hilfreich

...

bei der Beurteilung wären Anzeigen, welche Abschnitte als problematisch eingestuft wurden,

...

gegegebenenfalls inklusive Sicherheit und mit Einbezug auf Kontext (z.B. “Zwar scheint dieser Abschnitt nicht neutral, aber aufgrund des Themas ‘Fake News’ wurde er als wahrscheinlich unproblematisch eingestuft”).

Aktualität

...

Die Aktualität ist technisch leicht zu überprüfen (als Datum des Inhalts). Danach denkbar, regelbasiert, z.B. unter Berücksichtigung der Lehrplanthemen, eine Aussage zu treffen.

Für

...

Webseiten: Copyright Datum überprüfen

Implementierungsdesignmöglichkeit:

Regelbasiert
Eine Regel besteht aus:
- dem passenden Kontext (eine Query an die Daten)
- die Regel, die entscheidet, ob der Inhalt aktuell ist (z.B. Wertung, wie alt ein Inhalt sein darf und weitere Kriterien, nach denen entschieden wird)
Möglicherweise separate Einschätzung, wie aktuell (z.B. in Tagen) der Inhalt ist, ohne Wertung, ob dies zu alt ist.
Neue Features (z.B. Überprüfung von Sub-Links) können dynamisch hinzugefügt werden.

Ebenfalls von Interesse: “Content freshness” in SEO.

Passung

Prinzipiell einfach zu ermitteln für Text, mithilfe von Lesbarkeitsindices wie Flesch-Lesbarkeit (bereits Implementiert im Lesezeit-Service). Diese sind jedoch rudimentär und beachten das benutzte Vokabular nur bedingt (hierfür könnte z.B. ein Ranking der meistbenutzen Wörter genutzt werden).

Unklar: wie hängt diese Eigenschaft mit der Bildungsstufe zusammen? Kann ein Inhalt mit einer Bildungsstufe assoziiert werden, für die er nicht passt?
- Falls nein:
  Dann wäre es denkbar, die Vorhersage der Bildungsstufe mit der, der Passung zu kombinieren. So könnte unter

...

- anderem anhand von Themen (Lehrplanthemen oder /wiki/spaces/ITsJOINTLY/pages/68223022) die Bildungsstufe vorhergesagt werden (Quantenphysik wird in der Regel nicht in der Grundschule unterrichtet). Falls eine unpassende Bildungsstufe auswählt wurde, könnte darauf dann hingewiesen werden.
  Hierfür relevant ist ebenfalls das KI-Themen Lernpfade, da diese benutzt werden können, um die inhaltliche Komplexität einzustufen (ein Thema, das auf einem Thema für Sekundarstufe I aufbaut, ist wahrscheinlich mindestens der Sekundarstufe I zuzuordnen).

Offenheit

Prinzipiell direkt über die Lizens erfassbar und nicht kontextabhängig.

Unklar: was bedeutet “falls sich der Inhalt nicht an die Lizenz hält”? Was muss hier überprüft werden?

Auffindbarkeit

Im Wesentlichen eine Eigenschaft der übergeordneten Website / Quelle, nicht des Inhalts

...

selbst.
Es wäre möglich, eine Heuristik aufzusetzen, mit deren Hilfe die Auffindbarkeit von diversen Quellen, anhand von vorher definierten Kriterien (

...

insbesondere Mindestmetadatenfeldern), zu bewerten.

Außerdem können bereits bestehende Klassifizierungsalgorithmen benutzt werden, um die aufgefundenen Werte zu kontrollieren – sollten sehr viele Inhalte eines Providers von den Vorhersagen unserer Tools abweichen, so könnte es hier Probleme geben.

Rechtliche Unauffälligkeit

Für Text könnten Vorschläge anhand von Sentiment-Analysis,

...

gegebenenfalls auch analog zu Neutralität, generiert werden.

Aufgrund der Komplexität des Themas für Videos und Bilder würde sich wahrscheinlich eine bereits bestehende Lösung am ehesten anbieten (bspw. von Microsoft oder Google).

...

Gegebenenenfalls könnten zumindest Listen

...

benutzt werden, die nicht jugendfreie Inhalte auflisten.

Version	Old Version 1	New Version 2
Changes made by	Manuel Kummerländer	Karin Elbrecht
Saved on	Feb 18, 2025	Feb 18, 2025

Versions Compared

Key