...
Alternativ könnte ein Fragenkatalog mit einer Bewertungsmatrix entwickelt werden, der die oben genannten Anforderungen aufgreiftberücksichtigt. Beispiel:
...
Fragenkatalog zur Bewertung von Vorschaubildern für Bildungsinhalte
Jede Frage kann auf einer 5-Punkte-Likert-Skala bewertet werden,
wobei 1 = Stimme überhaupt nicht zu und 5 = Stimme voll und ganz zu bedeutet.
...
Relevanz und Inhalt
Das Vorschaubild spiegelt den Inhalt des Bildungsangebots treffend wider.
1 □ □ □ □ □ ← → 5
Das Hauptmotiv des Bildes ist klar erkennbar und unterstützt die Lernziele.
1 □ □ □ □ □ ← → 5
Das Bild vermittelt einen ersten Eindruck vom Thema oder der Art des Inhalts.
1 □ □ □ □ □ ← → 5
...
Gestaltung und Ästhetik
Das Design des Vorschaubildes ist klar und einfach, ohne überflüssige Elemente.
1 □ □ □ □ □ ← → 5
Die Farb- und Kontrastwahl ist ansprechend und unterstützt die visuelle Orientierung.
1 □ □ □ □ □ ← → 5
Das Bild ist in hoher Qualität (Auflösung, Schärfe) gestaltet.
1 □ □ □ □ □ ← → 5
...
Benutzerfreundlichkeit und Zugänglichkeit
Die Hauptmerkmale des Bildes sind auch in kleiner Größe gut erkennbar.
1 □ □ □ □ □ ← → 5
Das Vorschaubild berücksichtigt Barrierefreiheitsaspekte (z.B. kontrastreiche Farben, keine Textelemente).
1 □ □ □ □ □ ← → 5
...
Didaktische und Kulturelle Aspekte
Das Bild unterstützt den pädagogischen Zweck des Inhalts und hebt die Lernziele visuell hervor.
1 □ □ □ □ □ ← → 5
Die Bildsprache ist altersgerecht und entspricht dem Entwicklungsstand der Zielgruppe.
1 □ □ □ □ □ ← → 5
Das Vorschaubild ist kulturell sensibel und inklusiv gestaltet, sodass es alle Lernenden anspricht.
1 □ □ □ □ □ ← → 5
...
Konsistenz und Markenidentität
Das Vorschaubild ist konsistent mit anderen Bildern innerhalb derselben Serie oder Plattform.
1 □ □ □ □ □ ← → 5
Skalenbeschreibung
1 – Stimme überhaupt nicht zu
2 – Stimme eher nicht zu
3 – Neutral
4 – Stimme eher zu
5 – Stimme voll und ganz zu
...
Diese Metriken bewerten die Qualität der Bilder unabhängig von einem spezifischen Referenzbild.
Metrik | Beschreibung | Was wird gemessen | Aussagen | Implementiert im Skript |
---|---|---|---|---|
BRISQUE | Bewertet die Bildqualität basierend auf natürlichen Bildstatistiken ohne Referenz. | Bildqualität und Natürlichkeit ohne Referenzbild. | Niedrigere BRISQUE-Werte deuten auf eine bessere Bildqualität hin. | ✔️ |
NIQE | Bewertet die Natürlichkeit und Qualität des Bildes ohne Referenz. | Natürlichkeit und Bildqualität ohne Referenz. | Niedrigere NIQE-Werte deuten auf eine höhere Bildqualität und Natürlichkeit hin. | ✔️ |
Entropie | Misst den Informationsgehalt und die Komplexität des Bildes. | Informationsgehalt und Komplexität des Bildes. | Höhere Entropiewerte deuten auf komplexere und detailliertere Bilder hin. | ✔️ |
Farbigkeit | Bewertet die Farbintensität und -vielfalt im Bild. | Farbintensität und -vielfalt im Bild. | Höhere Farbwerte bedeuten lebendigere und farbenfrohere Bilder. | ✔️ |
Schärfe | Bewertet die Schärfe und Klarheit der Bilddetails. | Schärfe und Klarheit der Bilddetails. | Höhere Schärfewerte deuten auf schärfere und klarere Bilder hin. | ✔️ |
Kontrast | Misst den Kontrast des Bildes. | Differenz zwischen den hellsten und dunkelsten Bereichen. | Höhere Kontrastwerte deuten auf lebendigere und dynamischere Bilder hin. | ✔️ |
Inception Score (IS) | Bewertet die Qualität und Vielfalt der generierten Bilder basierend auf einem vortrainierten Inception-Modell. | Klarheit der generierten Objekte und Vielfalt der Bildinhalte. | Höhere IS-Werte deuten auf klarere und vielfältigere generierte Bilder hin. | ✔️ |
Diversity Metrics | Misst die Vielfalt der generierten Bilder. | Unterschiedlichkeit und Variation der generierten Bildinhalte. | Höhere Diversitätswerte zeigen eine größere Vielfalt und weniger Wiederholungen. | ❌ |
Fréchet Video Distance (FVD) | Ähnlich wie FID, aber für Videos; kann auch auf Bildserien angewendet werden. | Qualität und Konsistenz der generierten Bildsequenzen. | Niedrigere FVD-Werte signalisieren eine höhere Qualität und Konsistenz über Sequenzen. | ❌ |
Metriken mit Referenz
Diese Metriken vergleichen das generierte Bild mit einem oder mehreren Referenzbildern, um die Qualität und Ähnlichkeit zu bewerten.
Metrik | Beschreibung | Was wird gemessen | Aussagen | Implementiert im Skript |
---|---|---|---|---|
Peak Signal-to-Noise Ratio (PSNR) | Misst das Verhältnis zwischen dem maximal möglichen Signal und dem Rauschen, das durch die Bildgenerierung eingeführt wurde. | Ähnlichkeit zwischen dem generierten Bild und dem Referenzbild in Bezug auf Signalstärke und Rauschunterdrückung. | Höhere PSNR-Werte deuten auf eine höhere Bildqualität und geringere Verzerrungen hin. | ❌ |
Structural Similarity Index (SSIM) | Bewertet die visuelle Ähnlichkeit zwischen zwei Bildern unter Berücksichtigung von Helligkeit, Kontrast und Struktur. | Strukturelle Ähnlichkeit und Wahrnehmungsqualität im Vergleich zum Referenzbild. | Höhere SSIM-Werte zeigen eine stärkere strukturelle Übereinstimmung und bessere Wahrnehmungsqualität. | ❌ |
Learned Perceptual Image Patch Similarity (LPIPS) | Verwendet tiefe neuronale Netzwerke, um die wahrgenommene Ähnlichkeit zwischen Bildpaaren zu bewerten. | Wahrgenommene visuelle Ähnlichkeit auf einer höheren, perceptuellen Ebene. | Niedrigere LPIPS-Werte weisen auf eine höhere wahrgenommene Ähnlichkeit hin. | ❌ |
Frechet Inception Distance (FID) | Misst die Distanz zwischen den Verteilungen von generierten und realen Bildern im Merkmalsraum eines neuronalen Netzwerks. | Statistische Ähnlichkeit und Qualität der generierten Bilder im Vergleich zu echten Bildern. | Niedrigere FID-Werte deuten auf eine höhere Qualität und Realitätsnähe hin. | ❌ |
Metriken mit Promptbezug
Diese Metriken bewerten, wie gut das generierte Bild den Vorgaben des Textprompts entspricht.
Metrik | Beschreibung | Was wird gemessen | Aussagen | Implementiert im Skript |
---|---|---|---|---|
CLIP Score | Verwendet das CLIP-Modell von OpenAI, um die Übereinstimmung zwischen Text und Bild zu bewerten. | Semantische Ähnlichkeit und Relevanz des Bildinhalts zum Textprompt. | Höhere CLIP-Scores deuten darauf hin, dass das generierte Bild besser zum Textprompt passt. | ✔️ |
BLIP Score | Verwendet das BLIP-Modell von Salesforce, um die Übereinstimmung zwischen Text und Bild zu bewerten. | Semantische Ähnlichkeit und Relevanz des Bildinhalts zum Textprompt. | Höhere BLIP-Scores deuten darauf hin, dass das generierte Bild eine stärkere Übereinstimmung mit dem Textprompt aufweist. | ✔️ |
Text-to-Image Alignment Metrics | Bewertet die Genauigkeit, mit der das Bild den im Prompt beschriebenen Elementen entspricht. | Präsenz und korrekte Darstellung von im Prompt genannten Objekten, Szenen und Attributen im Bild. | Höhere Alignment-Werte zeigen eine bessere Übereinstimmung mit den spezifischen Anforderungen. | ❌ |
Semantic Consistency Metrics | Bewertet die semantische Konsistenz zwischen verschiedenen Teilen des Bildes im Kontext des Prompts. | Logische und inhaltliche Kohärenz der Bildelemente in Bezug auf den Textprompt. | Höhere Konsistenzwerte signalisieren eine zusammenhängende und sinnvolle Darstellung der Szene oder Objekte. | ❌ |
Prompt Adherence Score | Eine maßgeschneiderte Metrik, die spezifische Kriterien aus dem Prompt extrahiert und deren Umsetzung im Bild bewertet. | Einhaltung spezifischer Anweisungen und Anforderungen des Prompts, wie Stil, Farben, Objekte und deren Anordnung. | Höhere Adherence Scores bedeuten eine präzisere Umsetzung der Prompt-Anforderungen. | ❌ |
Quellen
[ 1 ] https://www.e-teaching.org/didaktik/gestaltung/visualisierung/abstrakt/schaubild
...