Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

  1. Entfernt wurden Datensätze, bei denen folgende Felder leer waren:

    • properties.cclom:general_description (Beschreibungstexte)

    • additional_data.full_text (Volltexte)

    • properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)

  2. Zusätzlich wurden Datensätze ausgeschlossen, deren Textfelder (Beschreibungstexte und Volltexte) weniger als 60 Zeichen umfassen, um ausreichend Material für eine sinnvolle Bewertung zu haben.

    • properties.cclom:general_description (Beschreibungstexte)

    • additional_data.full_text (Volltexte)

  3. Schließlich wurde die Anzahl der Datensätze auf 2000 reduziert und normalisiert. Dabei wurden folgende Felder zur gleichmäßigen Verteilung einbezogen:

    • properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)

    • properties.ccm:taxonid (Disziplinen)(

Disziplinen

...

wurden berücksichtigt, um eine ausgewogene Stichprobe der Bildungsinhalte aus unterschiedlichen Fachbereichen zu gewährleisten.

Ein Round-Robin-Verfahren (zyklisches Rundlaufverfahren) wurde angewandt, um

...

die

...

Daten gleichmäßig

...

zu verteilen.

Eine Gleichverteilung ist jedoch auf Grund der vorübergehend gut bewerteten Inhalte nur bedingt möglich.

...