...
Ansprechpersonen:
Eike Meyer
Colin Kavanagh
Organisatorisches
Umfang: 30 Personentage
Initiales Treffen zur Abstimmung der genauen Ziele und Wünsche
Tip |
---|
Der Abschlußbericht kann gelesen und kommentiert werden: https://docs.google.com/document/d/1ZOEeXSUQ2ygbSN3qHm2TovPDy_9BVQGx3vjDYRttQ4s/edit?usp=sharing |
...
Inhalt der Seite:
Table of Contents | ||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
Fragestellung/Ziel
Aus der Ausschreibung:
...
Ein bekanntes Problem dabei sind die sog. sogenannten Halluzinationen von LLMs, wodurch ein gewisses Risiko von falschen oder unsinnigen Ausgaben entsteht. Dieses Risiko wollen wir minimieren und lernen, ob und wie das aktuell und künftig gehen kann.
...
Hier ist eine Verlässlichkeit wichtig. Der Inhalte und Kontext der Materialien muss müssen erkannt werden und so eine Beschreibung/Zusammenfassung muss Sinn ergeben. Sinnfreie Aneinanderreihungen von Worten oder Zusammenfassungen, die nichts mit den Inhalten zu tun haben oder gar völlig falsch sind, sind zu vermeiden.
Verbesserung des Suchens und Findens durch chatbotartige Dialoge über die Lerninhalte
Wir wollen die Suche mit moderne modernen Mitteln aufwerten. NutzerInnen Nutzer*innen sollen sich in Dialogen über den Datenbestand oder einzelne Inhalte mit dem System “unterhalten” können. Hier liegt “richtig” sicher im Auge des Betrachters, so dass es hier kein absolutes richtig Richtig gibt. Hier Es ist wohl eher die Vermeidung eines klaren “falsch” “Falsch” anzustreben und die Sicherheit, dass das System alle Inhalte gut genug kennt um sinnhafte Aussagen zu machen.
...
Zusammenstellung von aktuellen Forschungsergebnissen bezüglich der Sachrichtigkeit von Large Language Models (LLMs)
Dokumentation laufender Forschungsprojekte und Initiativen, die sich mit der Verbesserung der Korrektheit von Korrektheit der LLMs beschäftigen
Identifikation von Schlüsselstudien, Entwicklungen, Methoden und Einschränkungen
Zusammenstellung der wichtigsten Ansätze und Methoden, die in der Forschung verwendet werden
Bewertung von Relevanz und Fortschritt
Identifikation führender Institutionen, Forschungseinrichtungen und ExpertenExpert*innen
Analyse von Forschungstrends und -ergebnissen, mit Herausstellung von Potenzialen, Chancen und Risiken für unser Projekt
Ermittlung von Synergien und Kooperationsmöglichkeiten für unser Projekt, um bspw. zur Forschung und Entwicklung beizutragen
Detaillierter Bericht, der die Analyse-Ergebnisse zusammenfasst
Präsentation von Erkenntnissen in verständlicher Form, die für Entscheidungsträger:*innen leicht zugänglich ist
Vorstellung der Ergebnisse und Diskussion mit unserem Projektteam, um die strategische Ausrichtung zu justieren
...
Umfang: 30 Personentage
Initiales Treffen zur Abstimmung der genauen Ziele und Wünsche
Definition “Sachrichtigkeit”
Hier stecken schon ein paar Gedanken drin, diese welche die Forschung und Entwicklung von LMMs leiten. Diese sind aber schon vor dem großen Aufkommen der LLMs entstanden. Aktuell und im Kontext von Large Language Models geht es bei der Sachrichtigkeit um diese Punkte:
Info |
---|
Bei der Bewertung der Sachrichtigkeit von LLMs müssen diese Aspekte berücksichtigt werden. Es kann auch notwendig sein, bestimmte Metriken oder Benchmarks zu entwickeln, um die Leistung von LLMs in Bezug auf Sachrichtigkeit zu quantifizieren und zu vergleichen. Dies kann durch manuelle Bewertung durch ExpertenExpert*innen, automatisierte Evaluation mit spezifischen Testdatensätzen oder andere Methoden erfolgen. |
...
Nicht richtig: Armstrong landete auf dem Mars und spielte eine Trompete.
x
Wie lassen sich die Antworten vergleichen?
Zu welchem Ausmaß sind die Antworten semantisch “gleich” bzw. “nicht gleich”
...
?
Ergebnis
State Of The Art Ansatz: LLM-As-A-Judge
Der zentrale methodische Ansatz basiert auf einem multilateralen Bewertungsprozess, bei dem mehrere LLMs in einem iterativen Verfahren wechselseitig ihre generierten Ausgaben überprüfen. Die Ergebnisse zeigen hohe Übereinstimmungsraten mit menschlichen Bewertungen und lassen sich durch fortschrittliche Prompting-Techniken noch weiter optimieren. Der entwickelte Ansatz bietet dabei bedeutende Vorteile: Er ermöglicht eine systematische Prüfung generierter Inhalte, erlaubt einen objektiven Vergleich verschiedener KI-Modelle und ist flexibel für unterschiedliche Anwendungsfälle skalierbar.
Benchmarking von Texten
Beschreibungstexte von Fachportalen als Basis
Recherche nach Benchmarks und Methodiken zum Anwenden der BenchmarksState Of The Art Ansatz: LLM-As-A-Judge
Vergleich mit menschlicher Bewertung von generierten Texten
Ergebnisdarstellung/Bericht
Zusammenfassungen der Ergebnisse sowie der ausführliche Bericht finden sich hier:
https://drive.google.com/open?id=10Q0xNw_jZY7Q6AbYr9YeZqoAhk2zKT_w&usp=drive_copy
PoC Implementierung (GitHub) → /wiki/spaces/ITsJOINTLY/pages/661684226
Abschlußbericht: https://docs.google.com/document/d/1ZOEeXSUQ2ygbSN3qHm2TovPDy_9BVQGx3vjDYRttQ4s/edit?usp=sharing
...