...
Ein Großteil der Datensätze ist den Disziplinen: Informatik, Chemie, Physik, Mathematik und Darstellendes Spiel zuzuordnen.
...
Fast alle Inhalte wurden auf der Skala mit 4 oder 5 bewertet, was jedoch im Rahmen der Erwartungen liegt, da von Redaktionen gepflegte Inhalte von eher besserer Qualität sind.
...
Testdurchführung
Für die Testdurchführung wurde ein Python-Script genutzt, das ausgewählte Metadatenfelder aus JSON an den Prompt übergibt und das Scoring sowie die Begründung dokumentiert. Anschließend werden diverse Metriken aus dem Vergleich von Originaldaten und KI-generierten Daten gebildet. Eine hohe Übereinstimmung würde auf eine erfolgreiche Bewertung durch die KI hindeuten.
...
Testergebnisse mit Beschreibungstexten
Ein Großteil der Datensätze ist den Disziplinen: Informatik, Chemie, Physik, Mathematik und Darstellendes Spiel zuzuordnen. Fast alle Inhalte wurden auf der Skala mit 4 oder 5 bewertet, was jedoch im Rahmen der Erwartungen liegt.
...
Alle Metriken im Überblick (Beschreibungstexte):
Precision: 0.59
F1 Score: 0.55
Mean Absolute Error (MAE): 0.62
Mean Squared Error (MSE): 1.10
Root Mean Squared Error (RMSE): 1.05
R² Score: -3.48
Pearson-Korrelation: -0.02
Durchschnittliche Abweichung: 0.62
Testergebnisse mit Volltexten
...
...
Alle Metriken im Überblick (Volltexte):
Precision: 0.58
F1 Score: 0.49
Mean Absolute Error (MAE): 0.92
Mean Squared Error (MSE): 2.57
Root Mean Squared Error (RMSE): 1.60
R² Score: -9.48
Pearson-Korrelation: -0.13
Durchschnittliche Abweichung: 0.92
Hinweise zu den Metriken
Precision misst, wie genau die positiven Vorhersagen des Modells sind. Ein Wert von 0.85 bedeutet, dass 85% der als positiv vorhergesagten Fälle tatsächlich korrekt waren, während 15% falsch positive Vorhersagen waren.
F1 Score ist das harmonische Mittel von Precision und Recall und gibt ein ausgewogenes Maß der Modellleistung. Ein F1 Score von 0.75 zeigt, dass das Modell eine gute Balance zwischen Genauigkeit (Precision) und Vollständigkeit (Recall) der Vorhersagen findet.
Mean Absolute Error (MAE) gibt den durchschnittlichen absoluten Unterschied zwischen den vorhergesagten und den tatsächlichen Werten an. Ein MAE von 2.3 zeigt, dass die Vorhersagen im Durchschnitt um 2.3 Einheiten (z. B. Punkte) vom tatsächlichen Wert abweichen.
Mean Squared Error (MSE) misst den Durchschnitt der quadrierten Fehler. Ein Wert von 10 bedeutet, dass größere Fehler stärker betont werden, und ein niedriger MSE zeigt eine gute Modellleistung an.
Root Mean Squared Error (RMSE) ist die Quadratwurzel des MSE und gibt den Fehler in derselben Einheit wie die Zielvariable an. Ein RMSE von 3.2 zeigt, dass der durchschnittliche Fehler bei etwa 3.2 Einheiten (z. B. Punkten) liegt.
R² Score misst, wie gut die Varianz der Zielvariable durch das Modell erklärt wird. Ein R² von 0.92 bedeutet, dass das Modell 92% der Varianz erklären kann, was auf eine gute Passung hinweist.
Pearson-Korrelation misst die lineare Beziehung zwischen den vorhergesagten und den tatsächlichen Werten. Ein Wert von 0.88 zeigt eine starke positive lineare Korrelation, d. h., die Vorhersagen folgen den tatsächlichen Werten sehr gut.
Durchschnittliche Abweichung zeigt den durchschnittlichen Unterschied zwischen den AI-bewerteten und den Originalwerten an. Eine Abweichung von 1.1 bedeutet, dass die KI-Bewertungen im Durchschnitt um 1.1 Einheiten vom tatsächlichen Wert abweichen, was auf eine hohe Übereinstimmung hindeutet.
...