Content Comparison

...

Ansprechpersonen:

Eike Meyer
Colin Kavanagh

Organisatorisches

Umfang: 30 Personentage
~~Initiales Treffen zur Abstimmung der genauen Ziele und Wünsche~~

Tip

Der Abschlußbericht kann gelesen und kommentiert werden:

https://docs.google.com/document/d/1ZOEeXSUQ2ygbSN3qHm2TovPDy_9BVQGx3vjDYRttQ4s/edit?usp=sharing

...

Inhalt der Seite:

Table of Contents

maxLevel	2
minLevel	1
include
outline	false
indent
exclude
style	none
type	list
printable	false
class

Fragestellung/Ziel

Aus der Ausschreibung:

...

Ein bekanntes Problem dabei sind die sog. sogenannten Halluzinationen von LLMs, wodurch ein gewisses Risiko von falschen oder unsinnigen Ausgaben entsteht. Dieses Risiko wollen wir minimieren und lernen, ob und wie das aktuell und künftig gehen kann.

...

Hier ist eine Verlässlichkeit wichtig. Der Inhalte und Kontext der Materialien muss müssen erkannt werden und so eine Beschreibung/Zusammenfassung muss Sinn ergeben. Sinnfreie Aneinanderreihungen von Worten oder Zusammenfassungen, die nichts mit den Inhalten zu tun haben oder gar völlig falsch sind, sind zu vermeiden.

Verbesserung des Suchens und Findens durch chatbotartige Dialoge über die Lerninhalte

Wir wollen die Suche mit moderne modernen Mitteln aufwerten. NutzerInnen Nutzer*innen sollen sich in Dialogen über den Datenbestand oder einzelne Inhalte mit dem System “unterhalten” können. Hier liegt “richtig” sicher im Auge des Betrachters, so dass es hier kein absolutes richtig Richtig gibt. Hier Es ist wohl eher die Vermeidung eines klaren “falsch” “Falsch” anzustreben und die Sicherheit, dass das System alle Inhalte gut genug kennt um sinnhafte Aussagen zu machen.

...

Zusammenstellung von aktuellen Forschungsergebnissen bezüglich der Sachrichtigkeit von Large Language Models (LLMs)
- Dokumentation laufender Forschungsprojekte und Initiativen, die sich mit der Verbesserung der Korrektheit von Korrektheit der LLMs beschäftigen
- Identifikation von Schlüsselstudien, Entwicklungen, Methoden und Einschränkungen
- Zusammenstellung der wichtigsten Ansätze und Methoden, die in der Forschung verwendet werden
- Bewertung von Relevanz und Fortschritt
- Identifikation führender Institutionen, Forschungseinrichtungen und ExpertenExpert*innen
Analyse von Forschungstrends und -ergebnissen, mit Herausstellung von Potenzialen, Chancen und Risiken für unser Projekt
Ermittlung von Synergien und Kooperationsmöglichkeiten für unser Projekt, um bspw. zur Forschung und Entwicklung beizutragen
Detaillierter Bericht, der die Analyse-Ergebnisse zusammenfasst
Präsentation von Erkenntnissen in verständlicher Form, die für Entscheidungsträger:*innen leicht zugänglich ist
Vorstellung der Ergebnisse und Diskussion mit unserem Projektteam, um die strategische Ausrichtung zu justieren

...

Umfang: 30 Personentage
Initiales Treffen zur Abstimmung der genauen Ziele und Wünsche

Definition “Sachrichtigkeit”

Hier stecken schon ein paar Gedanken drin, diese welche die Forschung und Entwicklung von LMMs leiten. Diese sind aber schon vor dem großen Aufkommen der LLMs entstanden. Aktuell und im Kontext von Large Language Models geht es bei der Sachrichtigkeit um diese Punkte:

Info

Faktentreue: Ein LLM sollte in der Lage sein, Fakten korrekt wiederzugeben und falsche Informationen zu vermeiden. Dies umfasst die Genauigkeit von Zahlen, Daten, historischen Ereignissen usw.
Kontextualität: Sachrichtigkeit hängt oft vom Kontext ab. Ein LLM sollte in der Lage sein, den Kontext eines Textes angemessen zu verstehen und seine Antworten oder generierten Inhalte entsprechend anzupassen.
Kohärenz: Die generierten Texte sollten kohärent sein und einen logischen Fluss haben, der dem Thema oder der Anfrage entspricht. Unzusammenhängende oder widersprüchliche Texte werden als weniger sachrichtig angesehen.
Vorurteilsfreiheit: Sachrichtigkeit schließt auch die Vermeidung von Vorurteilen oder verzerrten Darstellungen ein. Ein LLM sollte darauf achten, neutral und ausgewogen zu bleiben und keine diskriminierenden oder voreingenommenen Inhalte zu produzieren.
Sprachliche Korrektheit: Die grammatische und lexikalische Korrektheit ist ebenfalls wichtig für die Sachrichtigkeit. Texte sollten klar und präzise sein, ohne Fehler in der Rechtschreibung, Grammatik oder Satzstruktur.

Bei der Bewertung der Sachrichtigkeit von LLMs müssen diese Aspekte berücksichtigt werden. Es kann auch notwendig sein, bestimmte Metriken oder Benchmarks zu entwickeln, um die Leistung von LLMs in Bezug auf Sachrichtigkeit zu quantifizieren und zu vergleichen. Dies kann durch manuelle Bewertung durch ExpertenExpert*innen, automatisierte Evaluation mit spezifischen Testdatensätzen oder andere Methoden erfolgen.

...

Nicht richtig: Armstrong landete auf dem Mars und spielte eine Trompete.

x

Wie lassen sich die Antworten vergleichen?
Zu welchem Ausmaß sind die Antworten semantisch “gleich” bzw. “nicht gleich”

...

?

Ergebnis

State Of The Art Ansatz: LLM-As-A-Judge

Der zentrale methodische Ansatz basiert auf einem multilateralen Bewertungsprozess, bei dem mehrere LLMs in einem iterativen Verfahren wechselseitig ihre generierten Ausgaben überprüfen. Die Ergebnisse zeigen hohe Übereinstimmungsraten mit menschlichen Bewertungen und lassen sich durch fortschrittliche Prompting-Techniken noch weiter optimieren. Der entwickelte Ansatz bietet dabei bedeutende Vorteile: Er ermöglicht eine systematische Prüfung generierter Inhalte, erlaubt einen objektiven Vergleich verschiedener KI-Modelle und ist flexibel für unterschiedliche Anwendungsfälle skalierbar.

Benchmarking von Texten

Beschreibungstexte von Fachportalen als Basis
Recherche nach Benchmarks und Methodiken zum Anwenden der BenchmarksState Of The Art Ansatz: LLM-As-A-Judge
Vergleich mit menschlicher Bewertung von generierten Texten

Ergebnisdarstellung/Bericht

Zusammenfassungen der Ergebnisse sowie der ausführliche Bericht finden sich hier:

...

Version	Old Version 1	New Version 2
Changes made by	Manuel Kummerländer	Karin Elbrecht
Saved on	Feb 14, 2025	Feb 18, 2025

Versions Compared

Key