Document toolboxDocument toolbox

URL-Validierungsliste


Was wollen wir machen?

  • Das KI-Team möchte testen, was ein generischer Crawler können muss, um selbstständig gute Metadaten zu generieren. Dafür haben wir eine Liste mit Inhalten zusammengestellt, die ein breites Spektrum dessen abbildet, was ein Crawler können muss.

Was könnt ihr dazu beitragen?

  • Das KI-Team & der generische Crawlerprototyp benötigen gute Referenzwerte (best-Case Szenarios). Deshalb bitten wir euch die Liste durchzugehen und von Hand Datensätze auf staging für jeden Inhalt anzulegen und diese mit den besten/genauesten Metadaten zu versehen, die ein (geschulter) Nutzender hierfür vergeben würde.
  • Fügt die Inhalte dieser Sammlung URL-Validierungsliste hinzu, sodass sie für das KI-Team gesammelt sichtbar sind.
  • Habt ihr noch Hinweise für das KI-Team, die euch bei der Erstellung der Inhalte auffallen? Dann notiert sie gesammelt (Hedgehog & hier verlinken?

Hinweis zu den Metadaten: füllt die Mindestmetadaten aus und die, die ihr für den Nutzenden für sinnvoll haltet. Bitte notiert solche Metadaten, die ihr für nicht sinnvoll haltet oder bei denen es euch nicht möglich ist, diese auszufüllen bzw. es euch sehr schwer fällt diese auszufüllen. Bitte wenn möglich mit Begründung! 

URL-Liste

Wer?

Webseite

Schwierigkeitsgrad

URL-Testkandidat(en)

Tina (erledigt) 

Serlo.org

mittel hoch

Wer?

Webseite

Schwierigkeitsgrad

URL-Testkandidat(en)


Tina (erledigt) 

Serlo.org

mittel hoch


Natascha

(erledigt)

Planet-Schule.de

mittel


Natascha

(erledigt)

DiLerTube

mittel


Tina (erledigt)

Umwelt-im-Unterricht.de

mittel


Canan

(erledigt)

Materialnetzwerk (Materialpakete)

hoch


Tina (erledigt)

bpb.de



Natascha

(erledigt)

Geschichtsquellen.de




Canan

(erledigt)

Welt der Physik



Natascha

(erledigt)

Histomania.com

hoch

  • Zeitstrahl, Navigation herausfordernd


Canan

(erledigt)

Medienportal der Siemens Stiftung

Mittel


Tina (erledigt)

apps.zum.de

  • verschiedene Fächer

MITTEL

  • Inhalte an sich sind ggf. schwer von KI lesbar, da nicht einfach Text


Canan

(erledigt)

inf-schule.de

  • Informatik

hoch


Markus (erledigt)

Weltverbessern-Lernen.de:http://Weltverbessern-lernen.de


Einfach Mittel


Markus (erledigt)

lernen.schule.de

Einfach (weil nicht ergiebig)


Markus (erledigt)

schulebewegt.ch:https://www.schulebewegt.ch

schwer


Feedback zu Metadaten:

Metadaten, die ihr nicht identifizieren könnt und andere Auffälligkeiten:Warum?Wer?
Datenschutz sollte technisch abgefangen werden. Wir können nicht bewerten, was die Cookies alles mitprotokollieren.Markus
Feste Schlagwörter, Vorkenntnisse (Kompetenzen), Sprachniveau/Niveaustufe, Lernziele,Lernzielkontrolle, Europäischer Rahmen, Lesezeit, Textklassifikation/Textverlinkung Kann nicht bei jedem Dokument identifiziert werden Tina (Erste Sammlung inhaltlich) , Natascha, Canan
Status, Interoperabilität, Barrierefreiheit, Usability/Funktional, IT-Sicherheit, Auffindbar Keine technischen Kenntnisse Tina (Erste Sammlung technisch) , Natascha, Canan
Betrifft:  (Prod: node-ID 62e57b47-cbe6-4398-97c5-5865f745677c) bei Kategorie / Typ des Inhalts fehlt mir das Metadatum Dokumentarfilm oder auch Spielfilm, das in den Fremdsprachen eine große Rolle spielt.

passendes Metadatum fehlt 

Natascha
Betrifft: (Prod: node-ID c591a8eb-53e3-40c4-be16-eee133f22b50 bei der Kategorie Fach-/Sachgebiet und Lehrplanthema hatte ich Probleme bei der Zuordnung und habe in den Unterkategorien nichts wirklich passendes gefunden.keine eindeutige Zuordnung zu einem Fachunterpunkt möglich, da nicht vorhandenNatascha
Betrifft: (Prod: node-ID 38ec2be5-cb16-4d88-9cb0-d581d4b3e736) nicht aktuell URL wurde verschoben, neue URL s.o,Natascha
betrifft Inhalte von planet schuleCrawler hat bei Herkunft des Inhalts / Bezugsquelle planet schule angegeben. M.E. ist es aber  SWR, WDR, nur der Urheber ist planet schule. Könnt ihr das noch einmal überprüfen? Außerdem hat planet schule nach dem Update der Webseite sehr viele Inhalte aussortiert. Eigentlich müsste planet schule noch einmal gecrawlt werden. Bei Spanisch z.B. ist eine 12-teilige Serie rausgeflogen. ,20 23Natascha
Qualitätskriterien 

Sachrichtigkeit, Aktualität, Neutralität, Sprachlich, Medial passend, Didaktik/Methodik, Anbieter Renommee

→ Definitionen und Beispiele 

Natascha, Canan, Markus, Tina

Lizenz / Quellen

https://medienportal.siemens-stiftung.org/de/nutzungsbedingungen

Wie geht der Crawler bei Seiten vor, deren Lizenzangabe mit einer Einschränkung formuliert ist?
Beispiel:
"3.1 Die im Medienportal vorhandenen Medien stehen, SOWEIT NICHT ANDERS GEKENNZEICHNET, unter der Creative Commons Lizenz CC BY-SA, Version 4.0 international."
Hier müsste man theoretisch jedes Material auf der Seite sichten und schauen, ob eine andere Info vorliegt oder es sich tatsächlich um OER handelt.
Canan
Metadaten, die nicht sinnvoll für den Nutzenden sind:Warum?

Feste und freie Schlagwörter; Alter, Bildungsstufe und FSK; Status, Lehrplanthema und Destatis-Systematik; Vorkenntnisse (Kompetenzen); Lernziele; Lernzielkontrolle; Europäischer Rahmen; Lesezeit; Textklassifikation/Textverlinkung; Interoperabilität; Usability/Funktional; IT-Sicherheit; Auffindbar

Aktualität 



Veröffentlichkeitsdatum

Manche Aspekte doppeln sich etwas und manche machen keinen Sinn, wenn man sie auch nicht/nie identifizieren kann




Die Aktualität ist total vergänglich.  (Natascha: Da kann ich mich Tina nur anschließen)

Bei Pflege des Datum könnte man sich die Aktualität evtl. sparen (Markus)

Tina (Erste Sammlung inhaltlich und technisch) 
Strafrecht, Urheberrecht, Jugendschutz und Persönlichkeitsrechtewird dagegen verstoßen, ist es kein Material für wirlernenonline - und dann kann ich es löschen oder erst gar nicht erfassen, muss es aber nicht pflegenMarkus