Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Ansprechpersonen:

  • Eike Meyer

  • Colin Kavanagh

Organisatorisches

  • Umfang: 30 Personentage

  • Initiales Treffen zur Abstimmung der genauen Ziele und Wünsche

Tip

Der Abschlußbericht kann gelesen und kommentiert werden:

https://docs.google.com/document/d/1ZOEeXSUQ2ygbSN3qHm2TovPDy_9BVQGx3vjDYRttQ4s/edit?usp=sharing

...

Inhalt der Seite:

Table of Contents
maxLevel2
minLevel1
include
outlinefalse
indent
exclude
stylenone
typelist
printablefalse
class

Fragestellung/Ziel

Aus der Ausschreibung:

...

Ein bekanntes Problem dabei sind die sog. sogenannten Halluzinationen von LLMs, wodurch ein gewisses Risiko von falschen oder unsinnigen Ausgaben entsteht. Dieses Risiko wollen wir minimieren und lernen, ob und wie das aktuell und künftig gehen kann.

...

Hier ist eine Verlässlichkeit wichtig. Der Inhalte und Kontext der Materialien muss müssen erkannt werden und so eine Beschreibung/Zusammenfassung muss Sinn ergeben. Sinnfreie Aneinanderreihungen von Worten oder Zusammenfassungen, die nichts mit den Inhalten zu tun haben oder gar völlig falsch sind, sind zu vermeiden.

Verbesserung des Suchens und Findens durch chatbotartige Dialoge über die Lerninhalte

Wir wollen die Suche mit moderne modernen Mitteln aufwerten. NutzerInnen Nutzer*innen sollen sich in Dialogen über den Datenbestand oder einzelne Inhalte mit dem System “unterhalten” können. Hier liegt “richtig” sicher im Auge des Betrachters, so dass es hier kein absolutes richtig Richtig gibt. Hier Es ist wohl eher die Vermeidung eines klaren “falsch” “Falsch” anzustreben und die Sicherheit, dass das System alle Inhalte gut genug kennt um sinnhafte Aussagen zu machen.

...

  • Zusammenstellung von aktuellen Forschungsergebnissen bezüglich der Sachrichtigkeit von Large Language Models (LLMs)

    • Dokumentation laufender Forschungsprojekte und Initiativen, die sich mit der Verbesserung der Korrektheit von Korrektheit der LLMs beschäftigen

    • Identifikation von Schlüsselstudien, Entwicklungen, Methoden und Einschränkungen

    • Zusammenstellung der wichtigsten Ansätze und Methoden, die in der Forschung verwendet werden

    • Bewertung von Relevanz und Fortschritt

    • Identifikation führender Institutionen, Forschungseinrichtungen und ExpertenExpert*innen

  • Analyse von Forschungstrends und -ergebnissen, mit Herausstellung von Potenzialen, Chancen und Risiken für unser Projekt

  • Ermittlung von Synergien und Kooperationsmöglichkeiten für unser Projekt, um bspw. zur Forschung und Entwicklung beizutragen

  • Detaillierter Bericht, der die Analyse-Ergebnisse zusammenfasst

  • Präsentation von Erkenntnissen in verständlicher Form, die für Entscheidungsträger:*innen leicht zugänglich ist

  • Vorstellung der Ergebnisse und Diskussion mit unserem Projektteam, um die strategische Ausrichtung zu justieren

...

  • Umfang: 30 Personentage

  • Initiales Treffen zur Abstimmung der genauen Ziele und Wünsche

Definition “Sachrichtigkeit”

Hier stecken schon ein paar Gedanken drin, diese welche die Forschung und Entwicklung von LMMs leiten. Diese sind aber schon vor dem großen Aufkommen der LLMs entstanden. Aktuell und im Kontext von Large Language Models geht es bei der Sachrichtigkeit um diese Punkte:

Info
  1. Faktentreue: Ein LLM sollte in der Lage sein, Fakten korrekt wiederzugeben und falsche Informationen zu vermeiden. Dies umfasst die Genauigkeit von Zahlen, Daten, historischen Ereignissen usw.

  2. Kontextualität: Sachrichtigkeit hängt oft vom Kontext ab. Ein LLM sollte in der Lage sein, den Kontext eines Textes angemessen zu verstehen und seine Antworten oder generierten Inhalte entsprechend anzupassen.

  3. Kohärenz: Die generierten Texte sollten kohärent sein und einen logischen Fluss haben, der dem Thema oder der Anfrage entspricht. Unzusammenhängende oder widersprüchliche Texte werden als weniger sachrichtig angesehen.

  4. Vorurteilsfreiheit: Sachrichtigkeit schließt auch die Vermeidung von Vorurteilen oder verzerrten Darstellungen ein. Ein LLM sollte darauf achten, neutral und ausgewogen zu bleiben und keine diskriminierenden oder voreingenommenen Inhalte zu produzieren.

  5. Sprachliche Korrektheit: Die grammatische und lexikalische Korrektheit ist ebenfalls wichtig für die Sachrichtigkeit. Texte sollten klar und präzise sein, ohne Fehler in der Rechtschreibung, Grammatik oder Satzstruktur.

Bei der Bewertung der Sachrichtigkeit von LLMs müssen diese Aspekte berücksichtigt werden. Es kann auch notwendig sein, bestimmte Metriken oder Benchmarks zu entwickeln, um die Leistung von LLMs in Bezug auf Sachrichtigkeit zu quantifizieren und zu vergleichen. Dies kann durch manuelle Bewertung durch ExpertenExpert*innen, automatisierte Evaluation mit spezifischen Testdatensätzen oder andere Methoden erfolgen.

...

Nicht richtig: Armstrong landete auf dem Mars und spielte eine Trompete.

x

  • Wie lassen sich die Antworten vergleichen?

  • Zu welchem Ausmaß sind die Antworten semantisch “gleich” bzw. “nicht gleich”

...

  • ?

Ergebnis

  • State Of The Art Ansatz: LLM-As-A-Judge

Der zentrale methodische Ansatz basiert auf einem multilateralen Bewertungsprozess, bei dem mehrere LLMs in einem iterativen Verfahren wechselseitig ihre generierten Ausgaben überprüfen. Die Ergebnisse zeigen hohe Übereinstimmungsraten mit menschlichen Bewertungen und lassen sich durch fortschrittliche Prompting-Techniken noch weiter optimieren. Der entwickelte Ansatz bietet dabei bedeutende Vorteile: Er ermöglicht eine systematische Prüfung generierter Inhalte, erlaubt einen objektiven Vergleich verschiedener KI-Modelle und ist flexibel für unterschiedliche Anwendungsfälle skalierbar.

Benchmarking von Texten

  • Beschreibungstexte von Fachportalen als Basis

  • Recherche nach Benchmarks und Methodiken zum Anwenden der BenchmarksState Of The Art Ansatz: LLM-As-A-Judge

  • Vergleich mit menschlicher Bewertung von generierten Texten

Ergebnisdarstellung/Bericht

Zusammenfassungen der Ergebnisse sowie der ausführliche Bericht finden sich hier:

...