...
Es gilt also festzustellen wie Sachrichtigkeit überhaupt festgestellt werden kann. Zur Veranschaulichung sei hier eine Frage und 3 verschiedene, durch ein LLM generierte Antworten gegeben:
BspFrage: Was machte Armstrong auf dem Mond?
Die Frage zielt auf den Astronauten Neil Armstrong und die Landung auf dem Mond ab. Es gab aber in der Geschichte andere Armstrongs die für andere Taten bekannt sind, z.B. den Trompetenspieler Louis Armstrong. Es sind also verschiedene Antworten möglich, aber nicht alle richtig.
Sachrichtig: Armstrong landete auf dem Mond und stellte eine Fahne auf.
...
Wie lassen sich die Antworten nun vergleichen?
Zu welchem Ausmaß sind die Antworten semantisch “gleich” bzw. “nicht gleich”?
Wie lässt sich die Sachrichtigkeit messen und vergleichen?
Ergebnis
State Of The Art Ansatz: LLM-As-A-Judge
...