MetaQS Überarbeitung 4/2022
1. Motivation, Gesamtziel
Der WLO-Hub bzw. die WLO Suche enthält Metadaten von erschlossenen Inhaltequellen. Die Quellen liefern häufig sehr wenig und oft keine guten Metadaten.
Gute Metadaten sind wichtig für
Such- und Vorschlagsfunktionen, also die Aufindbarkeit von Inhalten
die Auswahl von Inhalten
(beispielsweise akzeptieren manche Bundesländer nur Inhalte, die keine Werbung enthalten)die rechtskonforme Nutzung von Inhalten
(beispielsweise muss i.d.R. die Lizenz und der Urheber bei der Nutzung angegeben werden, dafür müssen diese Daten verfügbar sein)...gern weitere Gründe ergänzen...
Unsere WLO-Metrik soll kurz gefasst folgendes leisten:
Quantität: Wieviele Datensätze existieren (z.B. von Quelle A versus Quelle B) - und - Wieviel % des Feldes X der Datensätze sind ausgefüllt
Qualität: Wie gut sind die ausgefüllten Metadaten (sind es eher Falschinformationen, zu grobe Informationen oder optimal richtige und detaillierte Informationen)
Benutzung: Wie oft / gut wird ein Metadatum genutzt (z.B. wird häufig nach der Bildungsstufe gefiltert). Daraus leiten wir ab, für welche Metadatenfelder wir Ressourcen für Metadatengeneratoren oder für Redaktionsaktivitäten investieren.
<< Zurück zur Startseite / Gesamtinhaltsverzeichnis
Inhalt dieser Seite
Mitwirkende an dieser Seite:
2. State of the Art und Beispiele Dritter
Es folgen ein paar Positivbeispiele für Metadaten-Metriken. Tatsächlich ist WLO (siehe also auch Abschnitt 3.) in einigen Lösungsbereichen State of the Art.
Benchmarking: QA Catalogue for analysing library data (Unibibliothek Gent)
Ein relativ komplexes Qualitätsmetiktool - zu komplex für uns ist - aber gut zum Inspirieren lassen
Elixier Metameter (Deutscher Bildungsserver)
Die Metrik des vom Bildungsserver mit organisierten "ELIXIER"-Netzwerks.
http://www.bildungsserver.de/elixier/elixiermetadatenguete.html
3. Aktueller Stand der WLO-Lösung
Theos MetaQS: Lehrplanthemen-Übersicht
senkrecht alle Lehrplanthemen
waagerecht die wichtigsten (leider hard codiert) Inhaltetypen
in einer Spalte eines Inhaltetyp werden gegenübergestellt
Inhalte in der Suchmaschine
Inhalte im Fachportal
Das ermöglicht den Fachredaktionen Inhalte in der Suche zu finden, die sie noch in ihre Sammlung übernehmen könnten.
API: http://c106-168.cloud.gwdg.de/docs
Dokumentation: https://openeduhub.github.io/metaqs-docs/
Steffens MetaQS: Fachportalinhalte-Qualität (Gamification)
Zeigt Qualitäts-Issues von Inhalten eines Fachportals (Inhalte einer Fachredaktion)
Materialien ohne Fachgebiet(smetadatum)
Materialien ohne Bildungsstufe
Materialien ohne Lizenz
Materialien ohne Schlagworte
Materialien ohne Titel
Offene Wünsche:
zeigt alle Pflichmetadaten der Redakteur:Innen als "Materialien ohne XYZ"
Sammlungsqualität meines Fachportals
Sammlung ohne Inhalt
Sammlung ohne Schlagworte
Sammlung ohne Beschreibungstext
Offene Wünsche:
weitere "ohne" Metadatum A, B, C
Metadatenqualität meines Fachportals
Senkrecht Sammlungen
Waagerecht ausgewählte Metadaten
Offene Wünsche:
weitere Metadaten waagerecht, relativ kurzfristige Anpassungsmöglichkeiten
alle Pflichtmetadaten als Spalte anzeigen
ein Schalter ermöglicht den Wechsel zwischen OER und allen Inhalten
4. Nötige Arbeiten
4.1 Wünsche, Anforderungen
wer macht was
Hier schreiben wir auch gemeinsam in Meetings beschlossene Anforderungen.
Quantität bestimmen
welche Metadaten werden genutzt (Klickzahlen, Christopher fragen)
welche Abfragen werden gemacht
nächster Schritt Qualität der Metadaten bestimmen
Anhand von Testgraphen soll hier bestimmt werden, welche Metadaten Aufmerksamkeit benötigen
Anhand von Planung_Metadatengenerierung bestimmen wir gemeinsam mit den Redakteur:Innen, was gerade den höchsten Wert generiert. Bspw. die Generierung von Beschreibungstexten darf gerne automatisierterledigt werden.
Erstes Zwischenziel: Qualitätsmetrik: Metadatenvollständigkeit von Quellen.
siehe Bild rechts, sollen
senkrecht alle Metadatenfelder des (im Tabellenkopf gewählten) Metadatenprofils aufgelistet werden
waagerecht sind in Spaleten die Quellen
in der 1. Fassung soll nur der Füllstand der Metadaten gezeigt werden (% der Datensätze gefüllt)
nicht Teil des 1. Sprints ist die Qualität der Füllung, welche künftig die KI durch grüne lächelnde oder rote mürrische Robots zeigt.
Mutmaßlich (Rücksprache Torsten) muss das MetaQS-Tool nur die Tabelle liefern. Das Umfeld der Tabelle zeigt die edu-sharing Redaktionsumgebung. Hier kann man
oberes Suchfeld: man kann Filtern nach Quellen oder nach Metadatenfeldern.
Sucht man nach "Cover" bietet die Suche (ähnlich LinkedIn) Suchergebnisse
"Cover - in Metadatenfeldern"
"Cover - in Quellen"
Die Prozentzahlen der Tabellenzelle sollen anklickbar sein (ggf. blaue Schrift ?)
der Klick führt zur betreffenden Inhaltemenge, in der DIESES Metadatum nicht ausgefüllt ist.
Links kann die Redaktionsumgebung die übliche Filterleiste einblenden. Diese erlaubt
Filtern der Quellen
Filtern der Datensätze (mit üblichen Inhaltemengen-Filtern)
Filtern der Metadatenfelder
oder Kombinationen daraus
Weiterführend (spätere Entwicklungsphasen)
sollen Spalteninhalte anpassbar sein
wie oben Quellen
Fachportal (Fachredaktion)
Buffets
verwendet / unverwendet
weiteres
Weiterhin könnten Zell-Inhalte untergliedert und mit verschiedenen Informationen gefüllt werden:
Anzahl Prüf- / Suchbuffet
... todo
Intern existieren via Kibana Auswertungsfunktionen. In Arbeit ist eine öffentlich einsehbare tabellarische Metrik des Füllstands des HUB, die in einer 2. späteren Entwicklungsstufe für Nutzende umschaltbar und filterbar gestaltet werden soll:
Quelle A | Quelle B | ... | Quelle Z | Umschalter / Filter (2. Stufe) | |
---|---|---|---|---|---|
Beschreibendes | Spalten:
Weitere Filter:
Zellen-Inhalte
| ||||
Cover | |||||
Kurztitel | |||||
Voller Titel | |||||
Beschreibung | |||||
Status | |||||
URL | |||||
Sprache | |||||
Typisierung | |||||
Typ des Inhalts | |||||
Dateiformat (Mimetype) | |||||
Dateiformat (Editorwahl) | |||||
Bildungsstufe | |||||
...etc. |
4.2. Konzepte / Entscheidungen
wer macht was
Hier schreibt Robert Konzepte / Alternativen, Entscheidungen werden dokumentiert. Anne ergänzt später ggf. UX-Entwürfe.
Herangehensweise:
Aufbrechen der derzeitig mangelhaft dokumentierten und getesteten MetaQS Lösung anhand der Anforderung "Qualitätsmatrix"
Aufsetzen einer Entwicklungs-Umgebung zum Testen von MetaQS, bspw. in Bezug auf experimentelle Features, ohne die Produktion dabei einzuschränken
Entwicklungsumgebung: erledigt, es existiert eine dev Umgebung, in der die Daten aus der Staging Elasticsearch angezeigt werden
MetaQS Lösung aufbrechen: In Arbeit, der Umzug auf Produktion muss noch erfolgen
Vorraussetzung: Abnahme durch @Timm Marco (Unlicensed) nach Rohdatenprüfung und Behebung der entsprechenden Mängel durch @Former user (Deleted)
4.3 Dokumentation neuer Lösungsbausteine
wer macht was
...hier schreibt Robert, wenn er neue Bausteine gebaut hat. Wenn es in die Lösung eingeht wird der Abschnitt zu "3. Aktueller Stand der WLO-Lösung" übernommen.
...
Entwicklungs API: http://c106-168.cloud.gwdg.de/docs
Entwicklungs Dokumentation: https://confluence.edu-sharing.net/confluence/x/CgASBQ
Qualitätsmatrix in MetaQS
Pflichtmetadaten als Kacheln/Widgets in MetaQS, bisher standen dort fünf ausgewählte Metadaten, von denen mindestens eines kein Pflichtmetadatum war
5. Mitschriften Abstimmungen
21. April 2022 API-Abstimmung
Robert, Torsten
API Abfrage auch mit Filterfeld, e.g., statt replicationsource auch was anderes
Feldnamen ähnlich zu Elasticsearch
API Rückgabe als Liste von Quellen
Zugriff auf SCM für Frontend, um Widget für Qualitätsmatrix zu entwickeln.
Überlegungen zur Perisistierung der Zeitreihe, e.g., Ort der Datenbank und Granularität der Daten - weitere Abstimmung ist hier nötig.
12. April 2022 Zielabstimmung, Zwischenstand
Robert, Hupf, Torsten, (Anne)
Anne und Robert besprachen, dass auf dieser Confluence-Seite Konzepte geschrieben werden
Robert zeigte den Einarbeitungsstand in Theos Lösung
Beschlüsse
Definieren fester Abfragen, was im Frontend dargestellt werden soll.
Robert setzt diese Abfragen in MetaQS um.
Dafür erhält Robert einen Abfragestring zu edu-sharing, diese sind derzeit nicht user-abhängig; Abfragen via query-wrapper, weiterer Filter
Dummy von Torsten
Erhaltene Daten als Zeitreihe persistieren
wo? MongoDB? PostrgeSQL "immer da"
vorerst Daten im MetaQS halten
Roberts Mitschrift zu ersten Zielen:
Zweites Ziel könnte sein
v.a. Frontend-Schwerpunkt
weitere Filter auswählbar
Vorteile Kibana
schnell, low-code mäßig üben/ausprobieren
nachträglich queries in Code abbilden
Managed service, MetaQS muss gewartet werden
Nachteile Kibana
Datenmodell in Kibana muss abgebildet sein
u.a. sind die Buffets nicht abgebildet, schwierig abbildbar
Tool derzeit nicht da
"gefährlich" auf die Redakteur*Innen loszulassen
ganzer Datenbestand
potenziell löschen möglich
Mehraufwand bei der Pflege, e.g., Elasticsearch Config muss abgebildet werden
Doppelungen, u.a., bei queries für Kibana und edu-sharing Frontend
Datensnapshots wohl schwierig, Historie zeigen
gewisse Rückgaben von MetaQS lassen sich nicht mit Kibana abbilden, e.g. Auflistung der Materialien
Übertragung auf die Länder
leicht andere Metadaten
wie machen wir es konfigurierbar für das Standardprodukt
Zweigleisig
wo Kibana, wo MetaQS?