...
Wie unterstützt dieses Metadatum die Auffindbarkeit?
Gute Vorschaubilder unterstützen die Auffindbarkeit, das zeigten Nutzerbefragungen.
Screenshots, die von Crawlern automatisch generiert werden, sind aber nicht immer hilfreich (und Cookie-Banner stören teilweise dieses Verfahren)
Verwenden Nutzende dieses Metadatum bei Suchvorgängen?
Welche Praxis existiert bei der Erstellung dieses Metadatums seitens Nutzenden.
Welche Anleitungen / Best practices sind in der Praxis wie erfolgreich?
Kann man die Qualität von Vorschaubildern maschinell bewerten?
Tests
...
Hintergrundwissen zur Bildgenerierung
...
Alternativ könnte ein Fragenkatalog mit einer Bewertungsmatrix entwickelt werden, der die oben genannten Anforderungen aufgreiftberücksichtigt. Beispiel:
...
Fragenkatalog zur Bewertung von Vorschaubildern für Bildungsinhalte
Jede Frage kann auf einer 5-Punkte-Likert-Skala bewertet werden,
wobei 1 = Stimme überhaupt nicht zu und 5 = Stimme voll und ganz zu bedeutet.
...
Relevanz und Inhalt
Das Vorschaubild spiegelt den Inhalt des Bildungsangebots treffend wider.
1 □ □ □ □ □ ← → 5
Das Hauptmotiv des Bildes ist klar erkennbar und unterstützt die Lernziele.
1 □ □ □ □ □ ← → 5
Das Bild vermittelt einen ersten Eindruck vom Thema oder der Art des Inhalts.
1 □ □ □ □ □ ← → 5
...
Gestaltung und Ästhetik
Das Design des Vorschaubildes ist klar und einfach, ohne überflüssige Elemente.
1 □ □ □ □ □ ← → 5
Die Farb- und Kontrastwahl ist ansprechend und unterstützt die visuelle Orientierung.
1 □ □ □ □ □ ← → 5
Das Bild ist in hoher Qualität (Auflösung, Schärfe) gestaltet.
1 □ □ □ □ □ ← → 5
...
Benutzerfreundlichkeit und Zugänglichkeit
Die Hauptmerkmale des Bildes sind auch in kleiner Größe gut erkennbar.
1 □ □ □ □ □ ← → 5
Das Vorschaubild berücksichtigt Barrierefreiheitsaspekte (z.B. kontrastreiche Farben, keine Textelemente).
1 □ □ □ □ □ ← → 5
...
Didaktische und Kulturelle Aspekte
Das Bild unterstützt den pädagogischen Zweck des Inhalts und hebt die Lernziele visuell hervor.
1 □ □ □ □ □ ← → 5
Die Bildsprache ist altersgerecht und entspricht dem Entwicklungsstand der Zielgruppe.
1 □ □ □ □ □ ← → 5
Das Vorschaubild ist kulturell sensibel und inklusiv gestaltet, sodass es alle Lernenden anspricht.
1 □ □ □ □ □ ← → 5
...
Konsistenz und Markenidentität
Das Vorschaubild ist konsistent mit anderen Bildern innerhalb derselben Serie oder Plattform.
1 □ □ □ □ □ ← → 5
Skalenbeschreibung
1 – Stimme überhaupt nicht zu
2 – Stimme eher nicht zu
3 – Neutral
4 – Stimme eher zu
5 – Stimme voll und ganz zu
...
Für die maschinelle Bewertung bieten sich verschiedene Metriken an. Diese können u.a. daraufhin unterschieden werden, ob neben dem generieten Bild noch eine Referenz und/oder der Prompt notwendig ist. Neben allgemeinen Aussagen zur Qualität des Bilds, lassen sich u.a. auch die Befolgung des Prompts und die Übereinstimmung zur Referenz bewerten.
Metriken
...
ohne Referenz (Allgemeine Metriken)
Diese Metriken vergleichen das generierte Bild mit einem oder mehreren Referenzbildern, um die Qualität und Ähnlichkeit zu bewerten.
Peak Signal-to-Noise Ratio (PSNR)
...
Beschreibung: Misst das Verhältnis zwischen dem maximal möglichen Signal und dem Rauschen, das durch die Bildgenerierung eingeführt wurde.
...
Was wird gemessen: Die Ähnlichkeit zwischen dem generierten Bild und dem Referenzbild in Bezug auf Signalstärke und Rauschunterdrückung.
...
bewerten die Qualität der Bilder unabhängig von einem spezifischen Referenzbild.
Metrik | Beschreibung | Was wird gemessen | Aussagen | Implementiert im Skript |
---|---|---|---|---|
BRISQUE | Bewertet die Bildqualität basierend auf natürlichen Bildstatistiken ohne Referenz. | Bildqualität und Natürlichkeit ohne Referenzbild. | Niedrigere BRISQUE-Werte deuten auf eine |
...
bessere Bildqualität hin. |
Structural Similarity Index (SSIM)
Beschreibung: Bewertet die visuelle Ähnlichkeit zwischen zwei Bildern unter Berücksichtigung von Helligkeit, Kontrast und Struktur.
Was wird gemessen: Die strukturelle Ähnlichkeit und Wahrnehmungsqualität im Vergleich zum Referenzbild.
Aussagen: Ein höherer SSIM-Wert zeigt eine stärkere strukturelle Übereinstimmung und bessere Wahrnehmungsqualität des generierten Bildes im Vergleich zum Referenzbild.
Learned Perceptual Image Patch Similarity (LPIPS)
Beschreibung: Verwendet tiefe neuronale Netzwerke, um die wahrgenommene Ähnlichkeit zwischen Bildpaaren zu bewerten.
Was wird gemessen: Die wahrgenommene visuelle Ähnlichkeit auf einer höheren, perceptuellen Ebene.
Aussagen: Niedrigere LPIPS-Werte weisen auf eine höhere wahrgenommene Ähnlichkeit zwischen dem generierten Bild und dem Referenzbild hin.
Frechet Inception Distance (FID)
Beschreibung: Misst die Distanz zwischen den Verteilungen von generierten und realen Bildern im Merkmalsraum eines neuronalen Netzwerks.
Was wird gemessen: Die statistische Ähnlichkeit und Qualität der generierten Bilder im Vergleich zu echten Bildern.
Aussagen: Niedrigere FID-Werte deuten auf eine höhere Qualität und Realitätsnähe der generierten Bilder hin.
Metriken ohne Referenz
Diese Metriken bewerten die Qualität der Bilder unabhängig von einem spezifischen Referenzbild.
Inception Score (IS)
Beschreibung: Bewertet die Qualität und Vielfalt der generierten Bilder basierend auf einem vortrainierten Inception-Modell.
Was wird gemessen: Die Klarheit der generierten Objekte und die Vielfalt der Bildinhalte.
Aussagen: Höhere IS-Werte deuten auf klarere und vielfältigere generierte Bilder hin.
Fréchet Video Distance (FVD)
Beschreibung: Ähnlich wie FID, aber für Videos; kann auch auf Bildserien angewendet werden.
Was wird gemessen: Die Qualität und Konsistenz der generierten Bildsequenzen.
Aussagen: Niedrigere FVD-Werte signalisieren eine höhere Qualität und Konsistenz der generierten Bilder über Zeit oder Sequenzen hinweg.
Perceptual Quality Metrics (z.B. NIQE, BRISQUE)
Beschreibung: Bewertet die Bildqualität basierend auf natürlichen Bildstatistiken ohne Referenzbilder.
Was wird gemessen: Natürlichkeit und wahrgenommene Qualität der Bilder.
Aussagen: Niedrigere Werte bei NIQE und BRISQUE deuten auf eine höhere Bildqualität und Natürlichkeit hin.
Diversity Metrics
Beschreibung: Misst die Vielfalt der generierten Bilder.
Was wird gemessen: Die Unterschiedlichkeit und Variation der generierten Bildinhalte.
Aussagen: Höhere Diversitätswerte zeigen eine größere Vielfalt und weniger Wiederholungen in den generierten Bildern.
...
✔️ | ||||
NIQE | Bewertet die Natürlichkeit und Qualität des Bildes ohne Referenz. | Natürlichkeit und Bildqualität ohne Referenz. | Niedrigere NIQE-Werte deuten auf eine höhere Bildqualität und Natürlichkeit hin. | ✔️ |
Entropie | Misst den Informationsgehalt und die Komplexität des Bildes. | Informationsgehalt und Komplexität des Bildes. | Höhere Entropiewerte deuten auf komplexere und detailliertere Bilder hin. | ✔️ |
Farbigkeit | Bewertet die Farbintensität und -vielfalt im Bild. | Farbintensität und -vielfalt im Bild. | Höhere Farbwerte bedeuten lebendigere und farbenfrohere Bilder. | ✔️ |
Schärfe | Bewertet die Schärfe und Klarheit der Bilddetails. | Schärfe und Klarheit der Bilddetails. | Höhere Schärfewerte deuten auf schärfere und klarere Bilder hin. | ✔️ |
Kontrast | Misst den Kontrast des Bildes. | Differenz zwischen den hellsten und dunkelsten Bereichen. | Höhere Kontrastwerte deuten auf lebendigere und dynamischere Bilder hin. | ✔️ |
Inception Score (IS) | Bewertet die Qualität und Vielfalt der generierten Bilder basierend auf einem vortrainierten Inception-Modell. | Klarheit der generierten Objekte und Vielfalt der Bildinhalte. | Höhere IS-Werte deuten auf klarere und vielfältigere generierte Bilder hin. | ✔️ |
Diversity Metrics | Misst die Vielfalt der generierten Bilder. | Unterschiedlichkeit und Variation der generierten Bildinhalte. | Höhere Diversitätswerte zeigen eine größere Vielfalt und weniger Wiederholungen. | ❌ |
Fréchet Video Distance (FVD) | Ähnlich wie FID, aber für Videos; kann auch auf Bildserien angewendet werden. | Qualität und Konsistenz der generierten Bildsequenzen. | Niedrigere FVD-Werte signalisieren eine höhere Qualität und Konsistenz über Sequenzen. | ❌ |
Metriken mit Referenz
Diese Metriken vergleichen das generierte Bild mit einem oder mehreren Referenzbildern, um die Qualität und Ähnlichkeit zu bewerten.
Metrik | Beschreibung | Was wird gemessen | Aussagen | Implementiert im Skript |
---|---|---|---|---|
Peak Signal-to-Noise Ratio (PSNR) | Misst das Verhältnis zwischen dem maximal möglichen Signal und dem Rauschen, das durch die Bildgenerierung eingeführt wurde. | Ähnlichkeit zwischen dem generierten Bild und dem Referenzbild in Bezug auf Signalstärke und Rauschunterdrückung. | Höhere PSNR-Werte deuten auf eine höhere Bildqualität und geringere Verzerrungen hin. | ❌ |
Structural Similarity Index (SSIM) | Bewertet die visuelle Ähnlichkeit zwischen zwei Bildern unter Berücksichtigung von Helligkeit, Kontrast und Struktur. | Strukturelle Ähnlichkeit und Wahrnehmungsqualität im Vergleich zum Referenzbild. | Höhere SSIM-Werte zeigen eine stärkere strukturelle Übereinstimmung und bessere Wahrnehmungsqualität. | ❌ |
Learned Perceptual Image Patch Similarity (LPIPS) | Verwendet tiefe neuronale Netzwerke, um die wahrgenommene Ähnlichkeit zwischen Bildpaaren zu bewerten. | Wahrgenommene visuelle Ähnlichkeit auf einer höheren, perceptuellen Ebene. | Niedrigere LPIPS-Werte weisen auf eine höhere wahrgenommene Ähnlichkeit hin. | ❌ |
Frechet Inception Distance (FID) | Misst die Distanz zwischen den Verteilungen von generierten und realen Bildern im Merkmalsraum eines neuronalen Netzwerks. | Statistische Ähnlichkeit und Qualität der generierten Bilder im Vergleich zu echten Bildern. | Niedrigere FID-Werte deuten auf eine höhere Qualität und Realitätsnähe hin. | ❌ |
Metriken mit Promptbezug
Diese Metriken bewerten, wie gut das generierte Bild den Vorgaben des Textprompts entspricht.
CLIP Score
...
des Textprompts entspricht.
Metrik | Beschreibung | Was wird gemessen | Aussagen | Implementiert im Skript |
---|---|---|---|---|
CLIP Score | Verwendet das CLIP-Modell von OpenAI, um die Übereinstimmung zwischen Text und Bild zu bewerten. | Semantische Ähnlichkeit und Relevanz des Bildinhalts zum Textprompt. | Höhere CLIP-Scores deuten darauf hin, dass das generierte Bild besser zum Textprompt passt. | ✔️ |
BLIP Score | Verwendet das BLIP-Modell von Salesforce, um die Übereinstimmung zwischen Text und Bild zu bewerten. |
...
Semantische Ähnlichkeit und Relevanz des Bildinhalts zum |
...
Textprompt. |
...
Höhere |
...
BLIP-Scores deuten darauf hin, dass das generierte Bild |
...
eine stärkere Übereinstimmung mit dem Textprompt aufweist. | ✔️ |
Text-to-Image Alignment Metrics |
...
Bewertet die Genauigkeit, mit der das Bild den im Prompt beschriebenen Elementen entspricht. |
...
Präsenz und korrekte Darstellung von im Prompt genannten Objekten, Szenen und Attributen im Bild. |
...
Höhere Alignment-Werte zeigen eine bessere Übereinstimmung |
...
mit den spezifischen Anforderungen |
...
. | ❌ |
Semantic Consistency Metrics |
...
Bewertet die semantische Konsistenz zwischen verschiedenen Teilen des Bildes im Kontext des Prompts. |
...
Logische und inhaltliche Kohärenz der Bildelemente in Bezug auf den Textprompt. |
...
Höhere Konsistenzwerte signalisieren |
...
eine zusammenhängende und sinnvolle Darstellung der |
...
Szene oder Objekte |
...
. | ❌ |
Prompt Adherence Score |
...
Eine maßgeschneiderte Metrik, die spezifische Kriterien aus dem Prompt extrahiert und deren Umsetzung im Bild bewertet. |
...
Einhaltung spezifischer Anweisungen und Anforderungen des Prompts, wie Stil, Farben, Objekte und deren Anordnung. |
...
Höhere Adherence Scores bedeuten eine präzisere Umsetzung der Prompt-Anforderungen |
...
. | ❌ |
Quellen
[ 1 ] https://www.e-teaching.org/didaktik/gestaltung/visualisierung/abstrakt/schaubild
...