Für die maschinelle Bewertung bieten sich verschiedene Metriken an. Diese können u.a. daraufhin unterschieden werden, ob neben dem generieten Bild noch eine Referenz und/oder der Prompt notwendig ist. Neben allgemeinen Aussagen zur Qualität des Bilds, lassen sich u.a. auch die Befolgung des Prompts und die Übereinstimmung zur Referenz bewerten.

Metriken

...

ohne Referenz (Allgemeine Metriken)

Diese Metriken vergleichen das generierte Bild mit einem oder mehreren Referenzbildern, um die Qualität und Ähnlichkeit zu bewerten.

Peak Signal-to-Noise Ratio (PSNR)

...

Beschreibung: Misst das Verhältnis zwischen dem maximal möglichen Signal und dem Rauschen, das durch die Bildgenerierung eingeführt wurde.

...

Was wird gemessen: Die Ähnlichkeit zwischen dem generierten Bild und dem Referenzbild in Bezug auf Signalstärke und Rauschunterdrückung.

...

bewerten die Qualität der Bilder unabhängig von einem spezifischen Referenzbild.

Metrik	Beschreibung	Was wird gemessen	Aussagen	Implementiert im Skript
BRISQUE	Bewertet die Bildqualität basierend auf natürlichen Bildstatistiken ohne Referenz.	Bildqualität und Natürlichkeit ohne Referenzbild.	Niedrigere BRISQUE-Werte deuten auf eine

...

bessere Bildqualität hin.

...

Structural Similarity Index (SSIM)

Beschreibung: Bewertet die visuelle Ähnlichkeit zwischen zwei Bildern unter Berücksichtigung von Helligkeit, Kontrast und Struktur.
Was wird gemessen: Die strukturelle Ähnlichkeit und Wahrnehmungsqualität im Vergleich zum Referenzbild.
Aussagen: Ein höherer SSIM-Wert zeigt eine stärkere strukturelle Übereinstimmung und bessere Wahrnehmungsqualität des generierten Bildes im Vergleich zum Referenzbild.

Learned Perceptual Image Patch Similarity (LPIPS)

Beschreibung: Verwendet tiefe neuronale Netzwerke, um die wahrgenommene Ähnlichkeit zwischen Bildpaaren zu bewerten.
Was wird gemessen: Die wahrgenommene visuelle Ähnlichkeit auf einer höheren, perceptuellen Ebene.
Aussagen: Niedrigere LPIPS-Werte weisen auf eine höhere wahrgenommene Ähnlichkeit zwischen dem generierten Bild und dem Referenzbild hin.

Frechet Inception Distance (FID)

Beschreibung: Misst die Distanz zwischen den Verteilungen von generierten und realen Bildern im Merkmalsraum eines neuronalen Netzwerks.
Was wird gemessen: Die statistische Ähnlichkeit und Qualität der generierten Bilder im Vergleich zu echten Bildern.
Aussagen: Niedrigere FID-Werte deuten auf eine höhere Qualität und Realitätsnähe der generierten Bilder hin.

Metriken ohne Referenz

Diese Metriken bewerten die Qualität der Bilder unabhängig von einem spezifischen Referenzbild.

Inception Score (IS)

Beschreibung: Bewertet die Qualität und Vielfalt der generierten Bilder basierend auf einem vortrainierten Inception-Modell.
Was wird gemessen: Die Klarheit der generierten Objekte und die Vielfalt der Bildinhalte.
Aussagen: Höhere IS-Werte deuten auf klarere und vielfältigere generierte Bilder hin.

Fréchet Video Distance (FVD)

Beschreibung: Ähnlich wie FID, aber für Videos; kann auch auf Bildserien angewendet werden.
Was wird gemessen: Die Qualität und Konsistenz der generierten Bildsequenzen.
Aussagen: Niedrigere FVD-Werte signalisieren eine höhere Qualität und Konsistenz der generierten Bilder über Zeit oder Sequenzen hinweg.

Perceptual Quality Metrics (z.B. NIQE, BRISQUE)

Beschreibung: Bewertet die Bildqualität basierend auf natürlichen Bildstatistiken ohne Referenzbilder.
Was wird gemessen: Natürlichkeit und wahrgenommene Qualität der Bilder.
Aussagen: Niedrigere Werte bei NIQE und BRISQUE deuten auf eine höhere Bildqualität und Natürlichkeit hin.

Diversity Metrics

Beschreibung: Misst die Vielfalt der generierten Bilder.
Was wird gemessen: Die Unterschiedlichkeit und Variation der generierten Bildinhalte.
Aussagen: Höhere Diversitätswerte zeigen eine größere Vielfalt und weniger Wiederholungen in den generierten Bildern.

...

	✔️
NIQE	Bewertet die Natürlichkeit und Qualität des Bildes ohne Referenz.	Natürlichkeit und Bildqualität ohne Referenz.	Niedrigere NIQE-Werte deuten auf eine höhere Bildqualität und Natürlichkeit hin.	✔️
Entropie	Misst den Informationsgehalt und die Komplexität des Bildes.	Informationsgehalt und Komplexität des Bildes.	Höhere Entropiewerte deuten auf komplexere und detailliertere Bilder hin.	✔️
Farbigkeit	Bewertet die Farbintensität und -vielfalt im Bild.	Farbintensität und -vielfalt im Bild.	Höhere Farbwerte bedeuten lebendigere und farbenfrohere Bilder.	✔️
Schärfe	Bewertet die Schärfe und Klarheit der Bilddetails.	Schärfe und Klarheit der Bilddetails.	Höhere Schärfewerte deuten auf schärfere und klarere Bilder hin.	✔️
Kontrast	Misst den Kontrast des Bildes.	Differenz zwischen den hellsten und dunkelsten Bereichen.	Höhere Kontrastwerte deuten auf lebendigere und dynamischere Bilder hin.	✔️
Inception Score (IS)	Bewertet die Qualität und Vielfalt der generierten Bilder basierend auf einem vortrainierten Inception-Modell.	Klarheit der generierten Objekte und Vielfalt der Bildinhalte.	Höhere IS-Werte deuten auf klarere und vielfältigere generierte Bilder hin.	✔️
Diversity Metrics	Misst die Vielfalt der generierten Bilder.	Unterschiedlichkeit und Variation der generierten Bildinhalte.	Höhere Diversitätswerte zeigen eine größere Vielfalt und weniger Wiederholungen.	❌
Fréchet Video Distance (FVD)	Ähnlich wie FID, aber für Videos; kann auch auf Bildserien angewendet werden.	Qualität und Konsistenz der generierten Bildsequenzen.	Niedrigere FVD-Werte signalisieren eine höhere Qualität und Konsistenz über Sequenzen.	❌

Metriken mit Referenz

Diese Metriken vergleichen das generierte Bild mit einem oder mehreren Referenzbildern, um die Qualität und Ähnlichkeit zu bewerten.

Metrik	Beschreibung	Was wird gemessen	Aussagen	Implementiert im Skript
Peak Signal-to-Noise Ratio (PSNR)	Misst das Verhältnis zwischen dem maximal möglichen Signal und dem Rauschen, das durch die Bildgenerierung eingeführt wurde.	Ähnlichkeit zwischen dem generierten Bild und dem Referenzbild in Bezug auf Signalstärke und Rauschunterdrückung.	Höhere PSNR-Werte deuten auf eine höhere Bildqualität und geringere Verzerrungen hin.	❌
Structural Similarity Index (SSIM)	Bewertet die visuelle Ähnlichkeit zwischen zwei Bildern unter Berücksichtigung von Helligkeit, Kontrast und Struktur.	Strukturelle Ähnlichkeit und Wahrnehmungsqualität im Vergleich zum Referenzbild.	Höhere SSIM-Werte zeigen eine stärkere strukturelle Übereinstimmung und bessere Wahrnehmungsqualität.	❌
Learned Perceptual Image Patch Similarity (LPIPS)	Verwendet tiefe neuronale Netzwerke, um die wahrgenommene Ähnlichkeit zwischen Bildpaaren zu bewerten.	Wahrgenommene visuelle Ähnlichkeit auf einer höheren, perceptuellen Ebene.	Niedrigere LPIPS-Werte weisen auf eine höhere wahrgenommene Ähnlichkeit hin.	❌
Frechet Inception Distance (FID)	Misst die Distanz zwischen den Verteilungen von generierten und realen Bildern im Merkmalsraum eines neuronalen Netzwerks.	Statistische Ähnlichkeit und Qualität der generierten Bilder im Vergleich zu echten Bildern.	Niedrigere FID-Werte deuten auf eine höhere Qualität und Realitätsnähe hin.	❌

Metriken mit Promptbezug

Diese Metriken bewerten, wie gut das generierte Bild den Vorgaben des Textprompts entspricht.

CLIP Score

...

des Textprompts entspricht.

Metrik	Beschreibung	Was wird gemessen	Aussagen	Implementiert im Skript
CLIP Score	Verwendet das CLIP-Modell von OpenAI, um die Übereinstimmung zwischen Text und Bild zu bewerten.	Semantische Ähnlichkeit und Relevanz des Bildinhalts zum Textprompt.	Höhere CLIP-Scores deuten darauf hin, dass das generierte Bild besser zum Textprompt passt.	✔️
BLIP Score	Verwendet das BLIP-Modell von Salesforce, um die Übereinstimmung zwischen Text und Bild zu bewerten.

...

Semantische Ähnlichkeit und Relevanz des Bildinhalts zum

...

Textprompt.

...

Höhere

...

BLIP-Scores deuten darauf hin, dass das generierte Bild

...

eine stärkere Übereinstimmung mit dem Textprompt aufweist.	✔️
Text-to-Image Alignment Metrics

...

Bewertet die Genauigkeit, mit der das Bild den im Prompt beschriebenen Elementen entspricht.

...

Präsenz und korrekte Darstellung von im Prompt genannten Objekten, Szenen und Attributen im Bild.

...

Höhere Alignment-Werte zeigen eine bessere Übereinstimmung

...

mit den spezifischen Anforderungen

...

.	❌
Semantic Consistency Metrics

...

Bewertet die semantische Konsistenz zwischen verschiedenen Teilen des Bildes im Kontext des Prompts.

...

Logische und inhaltliche Kohärenz der Bildelemente in Bezug auf den Textprompt.

...

Höhere Konsistenzwerte signalisieren

...

eine zusammenhängende und sinnvolle Darstellung der

...

Szene oder Objekte

...

.	❌
Prompt Adherence Score

...

Eine maßgeschneiderte Metrik, die spezifische Kriterien aus dem Prompt extrahiert und deren Umsetzung im Bild bewertet.

...

Einhaltung spezifischer Anweisungen und Anforderungen des Prompts, wie Stil, Farben, Objekte und deren Anordnung.

...

Höhere Adherence Scores bedeuten eine präzisere Umsetzung der Prompt-Anforderungen

...

.

❌

Quellen

[ 1 ] https://www.e-teaching.org/didaktik/gestaltung/visualisierung/abstrakt/schaubild

...

Versions Compared

Old Version 9

New Version 10

Key

Metriken

ohne Referenz (Allgemeine Metriken)

Metriken ohne Referenz

Metriken mit Referenz

Metriken mit Promptbezug

Quellen

Page Comparison

Versions Compared

Old Version 9

New Version 10

Key

Metriken

ohne Referenz (Allgemeine Metriken)

Metriken ohne Referenz

Metriken mit Referenz

Metriken mit Promptbezug

Quellen