/
Generieren von Qualitätsmetadaten
  • Rough draft
  • Generieren von Qualitätsmetadaten

    Allgemeines

    Für die Generierung von Qualitätsmetadaten ist meistens der Inhalt des Materials essentiell. Hierfür würde sich das Feld content.fulltext anbieten, welches für manche Provider (z.B. OERSI) bereits gefüllt ist. Für andere Provider (z.B. YouTube, Bundeszentrale für politische Bildung, Serlo) existiert dieses Feld zwar, ist aber leer.

    • Für Textdaten (z.B. pdf-Dateien, Blogeinträge) sollte das Abgreifen dieser relativ trivial sein.

    • Manche Videodatenquellen (insbesondere YouTube) erlauben es, die Untertitel eines Videos herunterzuladen, welche als Inhalt verwendet werden.

      • Diese sind teilweise automatisch generiert und damit nicht vollkommen korrekt.

    • Für Bilder müsste ein Texterkennungstool verwendet werden.

    Der Kontext eines Inhalts kann bereits durch dessen Metadaten (insbesondere Lehrplanthemen und Zielgruppe) abgebildet werden. Diese sind teilweise jedoch nicht vollständig, sodass Tools zur Füllung dieser hilfreich wären (insbesondere Themenerkennung, siehe https://edu-sharing.atlassian.net/wiki/spaces/ITsJOINTLY/pages/68223022).

    Sachrichtigkeit

    Studie über den Stand der Forschung und Potenziale für WLO zu “Sachrichtigkeit in Large Language Models”

    Die Beurteilung von Sachrichtigkeit ist sehr komplex und kontextabhängig. Für einzelne Bereiche (z.B. Mathematik) aber unter Umständen einfacher umsetzbar als für andere.

    • Ein gegebenenfalls sinnvoller erster Ansatz: nur automatische Erkennung und Auflistung von Aussagen.

      • Simple Aussagen (z.B. “Angela Merkel hat einen Doktor der Naturwissenschaften”) könnten über vorhandene Wissensstrukturen überprüft werden; idealerweise zusätzlich mit einer Einschätzung der Sicherheit.

      • Erkannte Aussagen könnten für weitere KI-Themen genutzt werden (z.B. https://edu-sharing.atlassian.net/wiki/spaces/ITsJOINTLY/pages/68223022).

    Vereinfachter Nachbau Sachrichtigkeits-POC aus der Studie: GitHub - janschachtschabel/factualcorrectnessai: Prüfung von Bildungsinhalten auf Sachrichtigkeit
    Google Colab Notebook Sachrichtigkeit: https://colab.research.google.com/drive/1BppO2CJnAz4TYIRlkTZSiqyFxxsTwb6t?usp=sharing

    Neutralität

    Neutralität - Konzept und Bewertung

    Neutralität ist als Qualitätsmetadatum denkbar, aber kontextabhängig. Für Texte könnte Sentiment-Analysis verwendet werden.

    • Hilfreich bei der Beurteilung wären Anzeigen, welche Abschnitte als problematisch eingestuft wurden, gegegebenenfalls inklusive Sicherheit und mit Einbezug auf Kontext (z.B. “Zwar scheint dieser Abschnitt nicht neutral, aber aufgrund des Themas ‘Fake News’ wurde er als wahrscheinlich unproblematisch eingestuft”).

    Aktualität

    Aktualität kann sich auf mehrere Dimensionen beziehen. Es kann der Erstellungs- oder Änderungszeitpunkt gemeint sein, oder aber auch eine Einschätzung zur aktuellen Relevanz des Inhalts.

    Die Aktualität im Sinne der letzten Änderung ist technisch leicht zu überprüfen (als Datum oder Änderungszeitpunkt des Inhalts). Danach denkbar, regelbasiert, z.B. unter Berücksichtigung der Lehrplanthemen, eine Aussage zu treffen.

    Für Webseiten: Copyright Datum überprüfen

    Implementierungsdesignmöglichkeit:

    • Regelbasiert

    • Eine Regel besteht aus:

      • dem passenden Kontext (eine Query an die Daten)

      • die Regel, die entscheidet, ob der Inhalt aktuell ist (z.B. Wertung, wie alt ein Inhalt sein darf und weitere Kriterien, nach denen entschieden wird)

    • Möglicherweise separate Einschätzung, wie aktuell (z.B. in Tagen) der Inhalt ist, ohne Wertung, ob dies zu alt ist.

    • Neue Features (z.B. Überprüfung von Sub-Links) können dynamisch hinzugefügt werden.

    Ebenfalls von Interesse: “Content freshness” in SEO.

    Passung

    Prinzipiell einfach zu ermitteln für Text, mithilfe von Lesbarkeitsindices wie Flesch-Lesbarkeit (bereits Implementiert im Lesezeit-Service). Diese sind jedoch rudimentär und beachten das benutzte Vokabular nur bedingt (hierfür könnte z.B. ein Ranking der meistbenutzen Wörter genutzt werden).

    • Unklar: wie hängt diese Eigenschaft mit der Bildungsstufe zusammen? Kann ein Inhalt mit einer Bildungsstufe assoziiert werden, für die er nicht passt?

      • Falls nein:
        Dann wäre es denkbar, die Vorhersage der Bildungsstufe mit der, der Passung zu kombinieren. So könnte unter anderem anhand von Themen (Lehrplanthemen oder https://edu-sharing.atlassian.net/wiki/spaces/ITsJOINTLY/pages/68223022) die Bildungsstufe vorhergesagt werden (Quantenphysik wird in der Regel nicht in der Grundschule unterrichtet). Falls eine unpassende Bildungsstufe auswählt wurde, könnte darauf dann hingewiesen werden.
        Hierfür relevant ist ebenfalls das KI-Themen Lernpfade, da diese benutzt werden können, um die inhaltliche Komplexität einzustufen (ein Thema, das auf einem Thema für Sekundarstufe I aufbaut, ist wahrscheinlich mindestens der Sekundarstufe I zuzuordnen).

    Offenheit

    Prinzipiell direkt über die Lizens erfassbar und nicht kontextabhängig.

    Unklar: was bedeutet “falls sich der Inhalt nicht an die Lizenz hält”? Was muss hier überprüft werden?

    Auffindbarkeit

    Im Wesentlichen eine Eigenschaft der übergeordneten Website / Quelle, nicht des Inhalts selbst.
    Es wäre möglich, eine Heuristik aufzusetzen, mit deren Hilfe die Auffindbarkeit von diversen Quellen, anhand von vorher definierten Kriterien (insbesondere Mindestmetadatenfeldern), zu bewerten.

    Außerdem können bereits bestehende Klassifizierungsalgorithmen benutzt werden, um die aufgefundenen Werte zu kontrollieren – sollten sehr viele Inhalte eines Providers von den Vorhersagen unserer Tools abweichen, so könnte es hier Probleme geben.

    Rechtliche Unauffälligkeit

    Für Text könnten Vorschläge anhand von Sentiment-Analysis, gegebenenfalls auch analog zu Neutralität, generiert werden.

    Aufgrund der Komplexität des Themas für Videos und Bilder würde sich wahrscheinlich eine bereits bestehende Lösung am ehesten anbieten (bspw. von Microsoft oder Google).

    Gegebenenenfalls könnten zumindest Listen benutzt werden, die nicht jugendfreie Inhalte auflisten.

    Related content

    Was bedeutet “gute Metadatenqualität”?
    Was bedeutet “gute Metadatenqualität”?
    More like this
    Was haben Metadaten & Künstliche Intelligenz mit WirLernenOnline zu tun?
    Was haben Metadaten & Künstliche Intelligenz mit WirLernenOnline zu tun?
    More like this