...
Entfernt wurden Datensätze, bei denen folgende Felder leer waren:
properties.cclom:general_description (Beschreibungstexte)
additional_data.full_text (Volltexte)
properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)
Zusätzlich wurden Datensätze ausgeschlossen, deren Textfelder (Beschreibungstexte und Volltexte) weniger als 60 Zeichen umfassen, um ausreichend Material für eine sinnvolle Bewertung zu haben.
properties.cclom:general_description (Beschreibungstexte)
additional_data.full_text (Volltexte)
Schließlich wurde die Anzahl der Datensätze auf 2000 reduziert und normalisiert. Dabei wurden folgende Felder zur gleichmäßigen Verteilung einbezogen:
properties.ccm:oeh_quality_neutralness (Neutralitäts-Score der Redaktionen)
properties.ccm:taxonid (Disziplinen)(
Disziplinen
...
wurden berücksichtigt, um eine ausgewogene Stichprobe der Bildungsinhalte aus unterschiedlichen Fachbereichen zu gewährleisten.
Ein Round-Robin-Verfahren (zyklisches Rundlaufverfahren) wurde angewandt, um
...
die
...
Daten gleichmäßig
...
zu verteilen.
Eine Gleichverteilung ist jedoch auf Grund der vorübergehend gut bewerteten Inhalte nur bedingt möglich.
...