Studie über den Stand der Forschung und Potenziale für WLO zu “Sachrichtigkeit in Large Language Models”
Infos zum Partner
Das Unternehmen aus Kiel ist vernetzt mit der FH Kiel und dem Zukunftslabor Generative KI in Schleswig Holstein.
Ansprechpersonen
Colin Kavanagh
Dr. Eike Meyer
Organisatorisches
Vergabeprojekt mit einem Umfang von 30 Personentagen
Der Abschlußbericht kann gelesen und kommentiert werden:
Inhalt der Seite:
Fragestellung/Ziel
Aus der Ausschreibung:
… für die Generierung von Metadaten in unserem Projekt könnten solche Large Language Models (LLM) genutzt werden, allerdings ist auch bekannt, dass diese Technologien nicht immer wahrheitsgetreue Informationen liefern. Um hier besser einschätzen zu können, ob die für unser Projekt notwendige Tiefe
und Qualität von dieser sich rasant entwickelnden Technologie erreicht werden kann, benötigen wir Unterstützung. Wir wollen erfahren, wie es um die Sachrichtigkeit und die Erforschung von Verbesserungsmöglichkeiten in LLMs steht, wie wir aktuelle Möglichkeiten bereits nutzen können und wo Chancen und Risiken beim Einsatz von LLMs für unser Projekt liegen.
Ein bekanntes Problem dabei sind die sogenannten Halluzinationen von LLMs, wodurch ein gewisses Risiko von falschen oder unsinnigen Ausgaben entsteht. Dieses Risiko wollen wir minimieren und lernen, ob und wie das aktuell und künftig gehen kann.
Klassifikation von Lerninhalten nach qualitativen, technischen, pädagogischen u.a. Gesichtspunkten
Hier ist eine Mensch-Maschine-Interaktion durchaus vorgesehen und sinnvoll. Es kommt also nicht zwingend darauf an, dass ein Lerninhalt korrekt klassifiziert wird, allerdings soll die vorgeschlagene Klassifikation Sinn ergeben und nicht bspw. frei erfundene Vokabulare oder nicht nachvollziehbare Ergebnisse vorschlagen.
Beschreibungen und Zusammenfassungen von einzelnen oder Sammlungen von Lerninhalten zur Publikation auf Themenseiten
Hier ist eine Verlässlichkeit wichtig. Inhalte und Kontext der Materialien müssen erkannt werden und so eine Beschreibung/Zusammenfassung Sinn ergeben. Sinnfreie Aneinanderreihungen von Worten oder Zusammenfassungen, die nichts mit den Inhalten zu tun haben oder gar völlig falsch sind, sind zu vermeiden.
Verbesserung des Suchens und Findens durch chatbotartige Dialoge über die Lerninhalte
Wir wollen die Suche mit modernen Mitteln aufwerten. Nutzer*innen sollen sich in Dialogen über den Datenbestand oder einzelne Inhalte mit dem System “unterhalten” können. Hier liegt “richtig” sicher im Auge des Betrachters, so dass es hier kein absolutes Richtig gibt. Es ist wohl eher die Vermeidung eines klaren “Falsch” anzustreben und die Sicherheit, dass das System alle Inhalte gut genug kennt um sinnhafte Aussagen zu machen.
Leistungsbeschreibung der Ausschreibung
Zusammenstellung von aktuellen Forschungsergebnissen bezüglich der Sachrichtigkeit von Large Language Models (LLMs)
Dokumentation laufender Forschungsprojekte und Initiativen, die sich mit der Verbesserung der Korrektheit von LLMs beschäftigen
Identifikation von Schlüsselstudien, Entwicklungen, Methoden und Einschränkungen
Zusammenstellung der wichtigsten Ansätze und Methoden, die in der Forschung verwendet werden
Bewertung von Relevanz und Fortschritt
Identifikation führender Institutionen, Forschungseinrichtungen und Expert*innen
Analyse von Forschungstrends und -ergebnissen, mit Herausstellung von Potenzialen, Chancen und Risiken für unser Projekt
Ermittlung von Synergien und Kooperationsmöglichkeiten für unser Projekt, um bspw. zur Forschung und Entwicklung beizutragen
Detaillierter Bericht, der die Analyse-Ergebnisse zusammenfasst
Präsentation von Erkenntnissen in verständlicher Form, die für Entscheidungsträger*innen leicht zugänglich ist
Vorstellung der Ergebnisse und Diskussion mit unserem Projektteam, um die strategische Ausrichtung zu justieren
Definition “Sachrichtigkeit”
Hier stecken schon ein paar Gedanken drin, welche die Forschung und Entwicklung von LMMs leiten. Diese sind aber schon vor dem großen Aufkommen der LLMs entstanden. Aktuell und im Kontext von Large Language Models geht es bei der Sachrichtigkeit um diese Punkte:
Faktentreue: Ein LLM sollte in der Lage sein, Fakten korrekt wiederzugeben und falsche Informationen zu vermeiden. Dies umfasst die Genauigkeit von Zahlen, Daten, historischen Ereignissen usw.
Kontextualität: Sachrichtigkeit hängt oft vom Kontext ab. Ein LLM sollte in der Lage sein, den Kontext eines Textes angemessen zu verstehen und seine Antworten oder generierten Inhalte entsprechend anzupassen.
Kohärenz: Die generierten Texte sollten kohärent sein und einen logischen Fluss haben, der dem Thema oder der Anfrage entspricht. Unzusammenhängende oder widersprüchliche Texte werden als weniger sachrichtig angesehen.
Vorurteilsfreiheit: Sachrichtigkeit schließt auch die Vermeidung von Vorurteilen oder verzerrten Darstellungen ein. Ein LLM sollte darauf achten, neutral und ausgewogen zu bleiben und keine diskriminierenden oder voreingenommenen Inhalte zu produzieren.
Sprachliche Korrektheit: Die grammatische und lexikalische Korrektheit ist ebenfalls wichtig für die Sachrichtigkeit. Texte sollten klar und präzise sein, ohne Fehler in der Rechtschreibung, Grammatik oder Satzstruktur.
Bei der Bewertung der Sachrichtigkeit von LLMs müssen diese Aspekte berücksichtigt werden. Es kann auch notwendig sein, bestimmte Metriken oder Benchmarks zu entwickeln, um die Leistung von LLMs in Bezug auf Sachrichtigkeit zu quantifizieren und zu vergleichen. Dies kann durch manuelle Bewertung durch Expert*innen, automatisierte Evaluation mit spezifischen Testdatensätzen oder andere Methoden erfolgen.
Es gilt also festzustellen wie Sachrichtigkeit überhaupt festgestellt werden kann. Zur Veranschaulichung sei hier eine Frage und 3 verschiedene, durch ein LLM generierte Antworten gegeben:
Frage: Was machte Armstrong auf dem Mond?
Die Frage zielt auf den Astronauten Neil Armstrong und die Landung auf dem Mond ab. Es gab aber in der Geschichte andere Armstrongs die für andere Taten bekannt sind, z.B. den Trompetenspieler Louis Armstrong. Es sind also verschiedene Antworten möglich, aber nicht alle richtig.
Sachrichtig: Armstrong landete auf dem Mond und stellte eine Fahne auf.
Halb richtig: Armstrong landete auf dem Mond und spielte eine Trompete.
Nicht richtig: Armstrong landete auf dem Mars und spielte eine Trompete.
x
Wie lassen sich die Antworten nun vergleichen?
Zu welchem Ausmaß sind die Antworten semantisch “gleich” bzw. “nicht gleich”?
Wie lässt sich die Sachrichtigkeit messen und vergleichen?
Ergebnis
State Of The Art Ansatz: LLM-As-A-Judge
Der zentrale methodische Ansatz basiert auf einem multilateralen Bewertungsprozess, bei dem mehrere LLMs in einem iterativen Verfahren wechselseitig ihre generierten Ausgaben überprüfen. Die Ergebnisse zeigen hohe Übereinstimmungsraten mit menschlichen Bewertungen und lassen sich durch fortschrittliche Prompting-Techniken noch weiter optimieren. Der entwickelte Ansatz bietet dabei bedeutende Vorteile: Er ermöglicht eine systematische Prüfung generierter Inhalte, erlaubt einen objektiven Vergleich verschiedener KI-Modelle und ist flexibel für unterschiedliche Anwendungsfälle skalierbar.
Benchmarking von Texten
Beschreibungstexte von Fachportalen als Basis
Recherche nach Benchmarks und Methodiken zum Anwenden der Benchmarks
Vergleich mit menschlicher Bewertung von generierten Texten
Ergebnisdarstellung/Bericht
Zusammenfassungen der Ergebnisse sowie der ausführliche Bericht finden sich hier:
https://drive.google.com/open?id=10Q0xNw_jZY7Q6AbYr9YeZqoAhk2zKT_w&usp=drive_copy
PoC Implementierung (GitHub) → https://edu-sharing.atlassian.net/wiki/spaces/ITsJOINTLY/pages/661684226
Abschlußbericht: https://docs.google.com/document/d/1ZOEeXSUQ2ygbSN3qHm2TovPDy_9BVQGx3vjDYRttQ4s/edit?usp=sharing