4. Smarte Erschließung, Kuratierung und Auffindbarkeit als Mensch-Maschine-Kooperation
Über diesen Abschnitt: Mit dem Internetzeitalter wurden immer mehr Inhalte von Nutzenden erstellt. Im KI-Zeitalter werden Inhalte zunehmend mithilfe von Maschinen generiert. Damit die großen bestehenden Inhaltemengen auffindbar und wiederverwendbar werden, müssen sie erschlossen und kuratiert werden. Hierfür braucht es smarte maschinengestützte Lösungen. Dieser Abschnitt sammelt Konzepte und Lösungen der deutschen Open Education Community, z.B. WirLernenOnline und lädt zum Mitsammeln und Mitentwickeln ein.
Inhalte dieses Abschnitts (Unterseiten)
Inhalt dieser Seite
- 1 A) Motivation und Überblick
- 2 B) Herausforderungen
- 2.1 Sehr viele Daten
- 2.2 Sehr heterogene Daten
- 2.3 Unvollständige Metadaten
- 2.4 Unterschiedlicher inhaltlicher Detailgrad
- 2.5 Identische Inhalte die mehrfach aus unterschiedlichen Quellen kommen (syntaktische Dubletten)
- 2.6 Inhalte, die sehr ähnlich sind, bzw. das gleiche Thema behandeln (inhaltliche Dublette)
- 2.7 Zuordnung der Inhalte zu Lehrplänen
- 3 C) Lösungen und Konzepte
A) Motivation und Überblick
Lehr- und Lerninhalte müssen besser auffindbar werden. Künftig sollen sie den Lehrenden und Lernenden in der passenden Situation vorgeschlagen werden. Softwareanwendungen, die solche Vorschläge machen sollen, benötigen dafür günstigere Voraussetzungen. Beispielsweise müssen die Lehr- und Lerninhalte gut verschlagwortet sein. "Verschlagworten" meint hier das Kennzeichnen eines Inhalts zum Beispiel:
geeignet für den Erwerb folgender Kompetenz(en)
geeignet für Nutzende mit folgenden Vorkenntnissen
geeignet für Berufsausbildung für Beruf X
geeignet für Nutzende mit folgenden Sprachkenntnissen (z.B. Deutsch einfache Sprache)
geeignet für Zielgruppe im Alter von - bis oder eingeschränkt nutzbar gemäß FSK-Alterstufe
geeignet für Online-Unterrichtsformate
Sachrichtigkeit des Inhalts wurde bestätigt durch Fachredaktion im Schulbereich (oder durch maschinelle Überprüfung)
Insgesamt gibt es mehr als 50 Eigenschaften (“Metadaten”), die in aktuellen Redaktions- und Bibliothekssystemen den Inhalten zugeordnet werden. Für die zunehmende Menge von nutzergenerierten Inhalten braucht es hierfür 2 Arbeitsebenen:
zunehmende maschinelle Lösungen für Erschließung und Kuratierung
Vernetzung vorhandener redaktioneller Akteur*innen unter Einbezug der Community der Inhalte-Nutzenden und -Produzierenden
Als technische Voraussetzung dafür braucht es insbesondere:
gemeinsame Vokabulare für die Verschlagwortung sowie ein Mapping zwischen sich notwendigerweise unterscheidenden Vokabularen der Bildungsbereiche oder Berufs- und Fachgebiete
aktuelle Datenbank mit Kompetenzen (wie z.B. ESCO), digital lesbar und für Verschlagwortung nutzbar (Schnittstellen, Standards)
maschinenlesbare aktuelle Curricula in allen Bildungsbereichen, die mit Kompetenzen (Punkt 2) verknüpft sind
digitale und interoperable Kompetenzprüfungsmöglichkeiten
(beispielsweise mit Zielkompetenzen verschlagwortete Selbsttestdatenbanken analog zu IQB-Abituraufgaben)je Bildungs- u.a. Bereich gut verschlagwortete Lehr- und Lerninhalte die als Lerndatensätze für Künstliche Intelligenz nutzbar sind.
B) Herausforderungen
Die folgenden Eigenschaften des Datenbestands zeigen die Herausforderungen mit denen die Nutzer konfrontiert sind:
Sehr viele Daten
Die Plattform enthält gegenwärtig mehr als 150k Inhalte. Dies bedeutet, dass die Nutzer*innen auf der Suche nach Inhalten unter Umständen einer sehr großen Anzahl an Suchergebnissen gegenüber stehen. Z.B. ergibt die Suche nach “Satz des Pythagoras” über 1100 Treffer, aus denen die Nutzer*innen letztendlich die für sie relevanten Ergebnisse auswählen müssen. Durch klassische Methoden der Suchmaschinentechnologie, wie zum Beispiel Facetten-Filter, lassen sich die Suchergebnisse weiter einschränken. Das setzt allerdings voraus, dass die hierfür notwendigen Metadaten auch vollständig vorhanden sind. Ein Filtern nach z.B. “Fach: Physik”, funktioniert nur dann, wenn auch alle Inhalte diese Information enthalten. Dies ist leider nicht immer der Fall (vgl. Punkt 3). D.h. es gibt Physik-Inhalte, die jedoch nicht dem Fach Physik zugeordnet wurden. Aus diesem Grund ist davon auszugehen, dass der Nutzer ein unvollständiges Ergebnis erhält. Die große Menge der Daten erschwert also die Arbeit mit den Inhalten und erhöht den Aufwand, die Daten zu sichten und zu beurteilen.
Sehr heterogene Daten
Die Inhalte der Plattform bestehen aus unterschiedlichen Ausprägungen: Texte, Bilder (Fotos/Grafiken), Animationen, Präsentationen, Videos, Tabellen, uvm. Diese Heterogenität erschwert es, die Daten einheitlich zu erfassen. Ebenfalls muss zwischen den Daten selbst und den darüber zur Verfügung stehenden Metadaten unterschieden werden. Oft ist nicht klar zu erkennen, welche Information zum eigentlichen Inhalt und welche zu den Metadaten gehört. Dies erschwert die Kategorisierung und somit die Möglichkeit Filterfunktionen zu implementieren.
Unvollständige Metadaten
Für einen Großteil der Inhalte existieren nicht alle Metadaten. Um die wie in Punkt 1 angesprochenen Filter- und Organisationsmöglichkeiten zu implementieren, müssen die Inhalte kategorisiert werden, z.B. Einordnung in Fächer, Einordnung in Schulform und Klassenstufen, oder z. B. die Einordnung in Sprachen (z.B. Deutsch, Englisch, etc.). Diese Meta-Informationen werden von zahlreichen Quellen nicht angeben oder können nicht auf herkömmliche Weise extrahiert werden. Dies erschwert die Implementierung entsprechender Filter. Um diesem Problem zu begegnen sind innovative Methoden, beispielsweise auf Machine-Learning-Basis notwendig, die es ermöglichen entsprechende Informationen aus den Objekten zu generieren.
Unterschiedlicher inhaltlicher Detailgrad
Die Nutzer*innen haben einen unterschiedlichen Bedarf am Detailgrad der Inhalte, je nachdem in welchem Kontext der Inhalt verwendet werden soll (beispielsweise Grundschule oder Gymnasium). Während manche Nutzer*innen eine eher einfache Darstellung einer Information erwarten, erwarten andere Nutzer eine sehr detaillierte Information. Dies spiegelt sich z.B. in dem Umstand wider, dass manche Inhalte zu einem bestimmten Thema für Grundschüler aufbereitet worden sind, jedoch andere Inhalte zum selben Thema für höhere Klassenstufen, also mit einem höheren "Detailgrad", aufbereitet sind. Diese Unterschiede in der didaktischen Aufbereitung stellen für die Nutzer also ein wichtiges Relevanzkriterium dar. Die Tiefe der didaktischen Aufbereitung ist jedoch nur selten in den Metadaten angegeben, weshalb ein Filtern nicht möglich ist.
Identische Inhalte die mehrfach aus unterschiedlichen Quellen kommen (syntaktische Dubletten)
Da die Plattform Inhalte aus mehreren Quellen akquiriert, kann es vorkommen, dass Quellen dieselben - identischen - Inhalte liefern. Dies passiert z.B. wenn eine der Quellen auch eine Aggregator-Funktion hat, und die gleiche Primärquelle genutzt wird. Dies führt zu der Herausforderung, dass Inhalte in der Plattform mehrfach vorhanden sind. Diese Dubletten zu identifizieren ist aufgrund der technischen Herausforderungen aus den vorangegangenen Punkten (z.B. Formate, Struktur, Unvollständige Metadaten) nicht immer einfach möglich.
Inhalte, die sehr ähnlich sind, bzw. das gleiche Thema behandeln (inhaltliche Dublette)
Einige Inhalte aus unterschiedlichen Quellen behandeln das selbe Thema. Wenn diese Inhalte auf sehr ähnliche Weise aufbereitet und den selben Detailgrad enthalten, stellen sie eine inhaltliche Dublette dar. In manchen Fällen kann es vorkommen, dass bestimme Inhalte in anderen Inhalten enthalten sind. All diese Fälle können die Arbeit der Nutzer erschweren, da die Nutzer selbst feststellen müssen, dass einzelne Suchergebnisse keinen Mehrwert zur Befriedigung des Informationsbedürfnisses stiften. Dies erschwert die Arbeit mit den Suchergebnis.
Zuordnung der Inhalte zu Lehrplänen
Lehrpläne geben die Struktur des Unterrichts wieder. In vielen Fällen bezieht sich das Informationsbedürfnis der Nutzer nur auf einen bestimmten Teil des Lehrplans. Um eine adäquate Filterung der Suchergebnisse zu ermöglichen, müssen also Metadaten vorhanden sein, die auf den entsprechenden Teil des Lehrplans verweisen. Dies ist jedoch nur sehr selten der Fall. D.h. die Nutzer*innen müssen diese Leistung selbst erbringen, und dies kostet einen hohen Aufwand bei der Auswertung der Suchergebnisse.
C) Lösungen und Konzepte
Um die genannten Herausforderungen zu bewältigen, ist die Anwendung verschiedener Methoden möglich. Einige Herausforderungen, beispielsweise im Themenbereich "Unvollständige Metadaten" können durch recht simple technische Werkzeuge, wie eine Spracherkennung, gelöst werden. Die Zuordnung eines Objekts zu einem Schulfach ist allerdings wieder etwas herausfordender und benötigt Technologien maschinellen Lernens. Auf den folgenden Unterseiten werden verschiedene Themen beleuchtet, die sich einerseits mit dem Erschließungsprozess an sich beschäfigen und andererseits mit den Technologien und Services, die benötigt werden, um die Metadaten zu den erschlossenen Objekten zu schließen und zu verbessern, um den Endnutzer*innen ein besseres Suchergebnis ermöglichen zu können: