Ziel der Testreihe in die Generierung von Vorschaubildern für Bildungsinhalte, bei denen bisher keine oder unzureichende Vorschaubilder existieren.

Auswahl der Inhalte

Die Inhalte sollten Beschreibungstexte/Titel haben, um gute Voraussetzungen für die Promptgenerierung zu schaffen. Es sollten verschiedene Fachbereiche und Themen abgedeckt werden:

[1] Unterrichtsreihe zum Licht

Beschreibungstext: Diese Seite kann als Einstieg in eine Unterrichtsreihe zur Optik genutzt werden.

[2] Salzsee

Beschreibungstext: Was ist eigentlich ein Salzsee? Und weshalb geht man dort nicht unter? Diese Fragen werden vom Klexikon altersgerecht erklärt.

[3] Einführung in negative Zahlen

Beschreibungstext: In diesem Lernpfad lernst du negative Zahlen kennen. Nachdem du den Lernpfad bearbeitet hast, kannst du...

[4] Kostümbildner/in - Berufe am Theater

Beschreibungstext: Konstümbildner/in am Theater: Berufsbild, Voraussetzungen, Ausbildung und Adressen

[5] Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

Beschreibungstext: nicht vorhanden → Nutzung des Titels: Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

Fragestellungen

Evaluierung verschiedener Umsetzungsoptionen (Open Graph Images, KI-generierte Bilder)
Evaluierung des Gestaltung des Prompts
Evaluierung der Qualität/Anforderungen der KI-Bildgeneratoren

Vorgehensweise

Testreihe 1
- Erstellung von Open Graph Images mittels experimentellen Tool
Testreihe 2
- Prompterzeugung für die Bild-KI mittels Text-KI (Open AI gpt-4o)
- Nutzung der generierten Prompts mit verschiedenen Bildmodellen
  - OpenAI Dall-E 3
  - Stable Diffusion XL (Schnell in Fooocus)
  - Flux [schnell]
- Testreihe 3
  - Demonstriert mit Inhalt 1 und Open Dall-E 3 die Wirkung von Styles
Maschinelle Bewertung mittels geeigneten Metriken für Bildqualität und Promptwirkung mit dem entwickelten Tool
Qualitative menschliche Bewertung basierend auf folgenden Leitfaden:

Leitfaden für die menschliche Bewertung 

Relevanz und Klarheit:

- Vorschaubild spiegelt den Inhalt des Bildungsangebots treffend wider
- Hauptmotiv ist klar erkennbar und unterstützt die Lehr-/Lernprozesse

Gestaltung und Ästhetik:

- Design ist klar und einfach, ohne überflüssige oder störende Elemente
- Farb- und Kontrastwahl ist ansprechend und unterstützt die visuelle Orientierung

Benutzerfreundlichkeit und Barrierefreiheit:

- Hauptmerkmale des Bildes sind auch in kleiner Größe gut erkennbar
- Barrierefreiheitsaspekte werden berücksichtigt (z. B. kontrastreiche Farben)

Einhaltung der Promptvorgaben:

- Bild enthält keine Texte, menschlichen Gesichter oder überladene Elemente
- Vorgaben des Prompts wurden für zielgerichtete Darstellung befolgt

Durchführung

Testreihe 1 - Open Graph Images

[1] Unterrichtsreihe zum Licht

Menschliche Bewertung 1:

Beide Grafiken haben mit dem Lerngegenstand zu tun, wobei Grafik 1 nicht ansprechend ist. Grafik 2 motiviert und lädt zum Lernen ein. Das Bild ist nicht überladen, enthält außer der generierten Schrift keine Buchstaben und zeigt nur Gesichter von Fantasie-Figuren. Eine direkte Nutzung ist nur möglich, wenn ein Mensch ein Auswahl trifft. Eventuell kann das gegenchecken mittels NLP-Metrik die Auswahl unterstützen.

[2] Unterrichtsreihe zum Licht

Menschliche Bewertung 1:

Bild 1 bildet den Lerngegenstand ab, während Bild 2 keinen direkten Bezug zum Thema zu haben scheint. Die Qualität der Grafiken ist beiden Fällen nicht sehr hoch, wobei Grafik 1 zum Lernen geeignet ist. Es werden keine extra Schrift oder Gesicherter gezeigt.

[3] Einführung in negative Zahlen

Menschliche Bewertung 1:

Beide Grafiken haben nicht mit dem Lerngegenstand zu tun. Grafik 1 ist von der Qualität her besonders ungünstig und könnte problematische Inhalte haben. Eventuell lassen sich durch zusätzliche Bild-API weitere und damit geeignete Vorschläge generieren.

[4] Kostümbildner/in - Berufe am Theater

Menschliche Bewertung 1:

Bild 1 scheint inhaltlich geeignet zu sein. Bei Bild 2 erschließt sich der Themenbezug nicht. Die Bildqualität von 1 Bild 1 ist gut, während Bild 2 leichtes Rauschen hat. Beide Bilder zeigen keine zusätzliche Schrift. Gesichter sind in Bild 1 enthalten aber nicht kritisch.

[5] Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

Konnte nicht erhoben werden. Schlagwörter wurden definiert, es traten aber technische Probleme auf.

Testreihe 2 - KI generierte Bilder

Prompt-Erstellung (Style 1)

Der Text-Prompt für die Erzeugung der Bild-Prompts wurde nach einer Diskussionen im Team erweitert und um Anweisungen zur Vermeidung der Darstellung von Text und Gesichtern angepasst:

Erstellen Sie einen englischen Prompt für eine Bild-KI basierend auf der
folgenden Beschreibung des Bildungsinhalts. Der Prompt soll:

Alle hier genannten Hinweise und Anforderungen einfließen lassen. 
Wichtige Schlagworte zum Bildungsinhalt enthalten.
Sicherstellen, dass Objekte, Szenen und Sachverhalte möglichst
realistisch und ohne Text oder Gesicherter dargestellt werden.
Der erzeugte Prompt sollte dazu dienen, ein ansprechendes Vorschaubild
zu generieren, das den Bildungsinhalt treffend widerspiegelt
und die Lernenden motiviert.

Beschreibung des Bildungsinhalts

[Beschreibungstext oder Titel des Bildungsinhaltes hier einfügen ...]

Anforderungen und Hinweise

Hauptmotiv klar beschreiben: Identifizieren Sie das zentrale Element,
das den Bildungsinhalt repräsentiert, und beschreiben Sie es detailliert.
Relevante Details hinzufügen: Ergänzen Sie Kontext oder Umgebung,
um das Verständnis zu unterstützen.
Einfachheit und Klarheit betonen: Halten Sie das Design minimalistisch
und vermeiden Sie unnötige Elemente, um die kognitive Belastung zu reduzieren.
Realistische Darstellung: Stellen Sie sicher, dass Objekte, Szenen
und Sachverhalte möglichst realistisch wiedergegeben werden und
nicht verfälscht sind.
Text im Bild vermeiden: Verzichten Sie auf jeglichen Text im Bild,
um technische Schwierigkeiten und Redundanz zu vermeiden.
Emotionale Ansprache: Verwenden Sie warme Farben und natürliches Licht,
um eine einladende und motivierende Atmosphäre zu schaffen.
Professionelle Qualität anstreben: Achten Sie auf hohe Auflösung,
scharfen Fokus, klare Linien und eine ausgewogene Komposition.
Kulturelle Sensibilität: Stellen Sie sicher, dass das Bild kulturell
inklusiv und sensitiv ist, um alle Lernenden anzusprechen.

Stilvorgaben

Attribute: hochdetailliert, scharfe Fokussierung, poliert, makellos,
ansprechend, Symmetrie, kohärent, minimalistisch, sauber, aufgeräumt
Farben und Beleuchtung: helle Farben, natürliches Licht
Designelemente: klare Linien, einfache Formen, ausbalancierte Komposition
Qualität: professionelle Qualität, hohe Auflösung
Ästhetik: elegant, geradlinig, modern, klare visuelle Hierarchie

Hinweise zur Erstellung des Prompts

Integrieren Sie wichtige Schlagworte aus dem Bildungsinhalt in den Prompt.
Formulieren Sie den Prompt klar und präzise, um ein optimales Ergebnis
von der Bild-KI zu erhalten.
Stellen Sie sicher, dass der erzeugte englische Prompt alle Anforderungen
erfüllt und alle Worte aus den Stilvorgaben enthält.
Der Prompt sollte so formuliert sein, dass er von der Bild-KI direkt
verwendet werden kann, um das gewünschte Vorschaubild zu generieren.
Vermeiden Sie Texte im Bild, um technische Schwierigkeiten und das
Prinzip der Redundanz zu berücksichtigen.

Für Dall-E 3 und Flux [schnell] wurden nur die Prompts genutzt. Bei SDXL schnell mit Fooocus wurde zusätzlich der Standard-Negativ-Prompt genutzt:

unrealistic, saturated, high contrast, big nose, painting, drawing, sketch, cartoon, anime, manga, render, CG, 3d, watermark, signature, label

[1] Unterrichtsreihe zum Licht

Output von OpenAI Dall-E 3:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	51.8900	Höher ist schlechter
1	NIQE	4.8000	Niedriger ist besser (NIQE < 5)
2	Entropie	9.2300	Höher ist besser
3	Farbigkeit	50.0100	Höher ist besser
4	Schärfe	279.8300	Höher ist besser
5	Kontrast	52.8400	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.3089	Höher ist besser
1	BLIP Score	0.9595	Höher ist besser

Output von Flux [schnell]:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	60.3000	Höher ist schlechter
1	NIQE	6.7500	Höher ist schlechter
2	Entropie	8.4100	Höher ist besser
3	Farbigkeit	20.5300	Höher ist besser
4	Schärfe	110.4300	Höher ist besser
5	Kontrast	43.8400	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.2677	Höher ist besser
1	BLIP Score	0.9590	Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	43.3900	Niedriger ist besser (BRISQUE < 50)
1	NIQE	6.2300	Höher ist schlechter
2	Entropie	9.0100	Höher ist besser
3	Farbigkeit	50.0700	Höher ist besser
4	Schärfe	15.6500	Höher ist besser
5	Kontrast	52.8200	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.2552	Höher ist besser
1	BLIP Score	0.9591	Höher ist besser

[2] Salzsee

Output von OpenAI Dall-E 3:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	8.5500	Niedriger ist besser (BRISQUE < 50)
1	NIQE	2.6600	Niedriger ist besser (NIQE < 5)
2	Entropie	9.1300	Höher ist besser
3	Farbigkeit	48.9700	Höher ist besser
4	Schärfe	1,038.5000	Höher ist besser
5	Kontrast	50.9600	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.3722	Höher ist besser
1	BLIP Score	0.9566	Höher ist besser

Output von Flux [schnell]:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	17.4700	Niedriger ist besser (BRISQUE < 50)
1	NIQE	4.3400	Niedriger ist besser (NIQE < 5)
2	Entropie	7.5500	Höher ist besser
3	Farbigkeit	24.2500	Höher ist besser
4	Schärfe	45.6500	Höher ist besser
5	Kontrast	22.1000	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.3870	Höher ist besser
1	BLIP Score	0.9563	Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	16.6700	Niedriger ist besser (BRISQUE < 50)
1	NIQE	4.5600	Niedriger ist besser (NIQE < 5)
2	Entropie	9.0600	Höher ist besser
3	Farbigkeit	20.3700	Höher ist besser
4	Schärfe	39.5100	Höher ist besser
5	Kontrast	53.1500	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.3140	Höher ist besser
1	BLIP Score	0.9569	Höher ist besser

[3] Einführung in negative Zahlen

Output von OpenAI Dall-E 3:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	34.2600	Niedriger ist besser (BRISQUE < 50)
1	NIQE	4.4400	Niedriger ist besser (NIQE < 5)
2	Entropie	9.3500	Höher ist besser
3	Farbigkeit	44.6200	Höher ist besser
4	Schärfe	883.9300	Höher ist besser
5	Kontrast	58.9000	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.2658	Höher ist besser
1	BLIP Score	0.9615	Höher ist besser

Output von Flux [schnell]:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	72.9900	Höher ist schlechter
1	NIQE	12.2900	Höher ist schlechter
2	Entropie	7.4500	Höher ist besser
3	Farbigkeit	9.1500	Höher ist besser
4	Schärfe	536.2800	Höher ist besser
5	Kontrast	21.7500	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.2989	Höher ist besser
1	BLIP Score	0.9600	Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	-3.3600	Niedriger ist besser (BRISQUE < 50)
1	NIQE	2.5600	Niedriger ist besser (NIQE < 5)
2	Entropie	9.2300	Höher ist besser
3	Farbigkeit	26.0600	Höher ist besser
4	Schärfe	271.0300	Höher ist besser
5	Kontrast	60.1800	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.1928	Höher ist besser
1	BLIP Score	0.9632	Höher ist besser

[4] Kostümbildner/in - Berufe am Theater

Output von OpenAI Dall-E 3:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	19.5600	Niedriger ist besser (BRISQUE < 50)
1	NIQE	2.3600	Niedriger ist besser (NIQE < 5)
2	Entropie	9.3900	Höher ist besser
3	Farbigkeit	40.0700	Höher ist besser
4	Schärfe	1,397.3800	Höher ist besser
5	Kontrast	58.7100	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.3626	Höher ist besser
1	BLIP Score	0.9596	Höher ist besser

Output von Flux [schnell]:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	42.5100	Niedriger ist besser (BRISQUE < 50)
1	NIQE	4.2100	Niedriger ist besser (NIQE < 5)
2	Entropie	9.3200	Höher ist besser
3	Farbigkeit	46.8400	Höher ist besser
4	Schärfe	1,334.8300	Höher ist besser
5	Kontrast	64.2500	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.3504	Höher ist besser
1	BLIP Score	0.9598	Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	13.4600	Niedriger ist besser (BRISQUE < 50)
1	NIQE	3.0200	Niedriger ist besser (NIQE < 5)
2	Entropie	9.2000	Höher ist besser
3	Farbigkeit	37.4000	Höher ist besser
4	Schärfe	285.0400	Höher ist besser
5	Kontrast	66.7200	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.3001	Höher ist besser
1	BLIP Score	0.9590	Höher ist besser

[5] Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

Output von OpenAI Dall-E 3:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	34.2000	Niedriger ist besser (BRISQUE < 50)
1	NIQE	2.9400	Niedriger ist besser (NIQE < 5)
2	Entropie	9.4400	Höher ist besser
3	Farbigkeit	42.1500	Höher ist besser
4	Schärfe	543.4700	Höher ist besser
5	Kontrast	66.0600	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.2922	Höher ist besser
1	BLIP Score	0.9582	Höher ist besser

Output von Flux [schnell]:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	30.8700	Niedriger ist besser (BRISQUE < 50)
1	NIQE	4.4800	Niedriger ist besser (NIQE < 5)
2	Entropie	8.9200	Höher ist besser
3	Farbigkeit	48.3900	Höher ist besser
4	Schärfe	263.1100	Höher ist besser
5	Kontrast	51.1700	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.3248	Höher ist besser
1	BLIP Score	0.9550	Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

Bewertungsergebnisse: Allgemeine Bildqualität

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	BRISQUE	38.0600	Niedriger ist besser (BRISQUE < 50)
1	NIQE	4.4700	Niedriger ist besser (NIQE < 5)
2	Entropie	9.1100	Höher ist besser
3	Farbigkeit	37.5100	Höher ist besser
4	Schärfe	43.2700	Höher ist besser
5	Kontrast	48.1300	Höher ist besser
6	Inception Score	1.0000	Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

	Metrik	Wert	Bewertung

	Metrik	Wert	Bewertung
0	CLIP Score	0.3164	Höher ist besser
1	BLIP Score	0.9571	Höher ist besser

Vergleich der Metriken für KI-generierte Bilder

Inhalt 1: Unterrichtsreihe zum Licht

Metrik (Besserer Wert)	OpenAI DALL·E 3	Flux [schnell]	Stable Diffusion XL

Metrik (Besserer Wert)	OpenAI DALL·E 3	Flux [schnell]	Stable Diffusion XL
BRISQUE (niedriger ist besser)	51,89	60,30	43,39
NIQE (niedriger ist besser)	4,80	6,75	6,23
Entropie (höher ist besser)	9,23	8,41	9,01
Farbigkeit (höher ist besser)	50,01	20,53	50,07
Schärfe (höher ist besser)	279,83	110,43	15,65
Kontrast (höher ist besser)	52,84	43,84	52,82
Inception Score (höher ist besser)	1,00	1,00	1,00
CLIP Score (höher ist besser)	0,3089	0,2677	0,2552
BLIP Score (höher ist besser)	0,9595	0,9590	0,9591

Inhalt 2: Salzsee

Metrik (Besserer Wert)	OpenAI DALL·E 3	Flux [schnell]	Stable Diffusion XL

Metrik (Besserer Wert)	OpenAI DALL·E 3	Flux [schnell]	Stable Diffusion XL
BRISQUE (niedriger ist besser)	8,55	17,47	16,67
NIQE (niedriger ist besser)	2,66	4,34	4,56
Entropie (höher ist besser)	9,13	7,55	9,06
Farbigkeit (höher ist besser)	48,97	24,25	20,37
Schärfe (höher ist besser)	1.038,50	45,65	39,51
Kontrast (höher ist besser)	50,96	22,10	53,15
Inception Score (höher ist besser)	1,00	1,00	1,00
CLIP Score (höher ist besser)	0,3722	0,3870	0,3140
BLIP Score (höher ist besser)	0,9566	0,9563	0,9569

Inhalt 3: Einführung in negative Zahlen

Metrik (Besserer Wert)	OpenAI DALL·E 3	Flux [schnell]	Stable Diffusion XL

Metrik (Besserer Wert)	OpenAI DALL·E 3	Flux [schnell]	Stable Diffusion XL
BRISQUE (niedriger ist besser)	34,26	72,99	-3,36
NIQE (niedriger ist besser)	4,44	12,29	2,56
Entropie (höher ist besser)	9,35	7,45	9,23
Farbigkeit (höher ist besser)	44,62	9,15	26,06
Schärfe (höher ist besser)	883,93	536,28	271,03
Kontrast (höher ist besser)	58,90	21,75	60,18
Inception Score (höher ist besser)	1,00	1,00	1,00
CLIP Score (höher ist besser)	0,2658	0,2989	0,1928
BLIP Score (höher ist besser)	0,9615	0,9600	0,9632

Inhalt 4: Kostümbildner/in - Berufe am Theater

Metrik (Besserer Wert)	OpenAI DALL·E 3	Flux [schnell]	Stable Diffusion XL

Metrik (Besserer Wert)	OpenAI DALL·E 3	Flux [schnell]	Stable Diffusion XL
BRISQUE (niedriger ist besser)	19,56	42,51	13,46
NIQE (niedriger ist besser)	2,36	4,21	3,02
Entropie (höher ist besser)	9,39	9,32	9,20
Farbigkeit (höher ist besser)	40,07	46,84	37,40
Schärfe (höher ist besser)	1.397,38	1.334,83	285,04
Kontrast (höher ist besser)	58,71	64,25	66,72
Inception Score (höher ist besser)	1,00	1,00	1,00
CLIP Score (höher ist besser)	0,3626	0,3504	0,3001
BLIP Score (höher ist besser)	0,9596	0,9598	0,9590

Inhalt 5: Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

Metrik (Besserer Wert)	OpenAI DALL·E 3	Flux [schnell]	Stable Diffusion XL

Metrik (Besserer Wert)	OpenAI DALL·E 3	Flux [schnell]	Stable Diffusion XL
BRISQUE (niedriger ist besser)	34,20	30,87	38,06
NIQE (niedriger ist besser)	2,94	4,48	4,47
Entropie (höher ist besser)	9,44	8,92	9,11
Farbigkeit (höher ist besser)	42,15	48,39	37,51
Schärfe (höher ist besser)	543,47	263,11	43,27
Kontrast (höher ist besser)	66,06	51,17	48,13
Inception Score (höher ist besser)	1,00	1,00	1,00
CLIP Score (höher ist besser)	0,2922	0,3248	0,3164
BLIP Score (höher ist besser)	0,9582	0,9550	0,9571

Testreihe 3 (Vergleich Styles)

[1] Unterrichtsreihe zum Licht: Style Wasserfarben

[1] Unterrichtsreihe zum Licht mit Style Illustration

[1] Unterrichtsreihe zum Licht mit Style Lyrische Geometrie

Testreihe 4 (Style Watercolor, Fix für abstrakte Konzepte)

In Testreihe 4 wurde ein Fix für den Promptgenerator getestet. Der Stil Wasserfarben wurde integriert sowie eine Anweisung zum Umgang mit abstrakten Konzepten eingefügt (diese soll dann in einer Lehr- und Lernsituation dargestellt werden oder mit Beispielen visualisiert werden).

[3] Einführung in negative Zahlen

Menschliche Bewertung 1: Der Fix für abstrakte Konzepte hat z.T. funktioniert und bei der Darstellung von negativen Zahlen eine Lehr- und Lernsituation zur Unterstützung genutzt. Das Ergebnis ist aber noch verbesserungsfähig.

[4] Kostümbildner/in - Berufe am Theater

Menschliche Bewertung 1: Der Fix mit dem Stil Wasserfarben sorgt für ein sehr neutrales und anschauliches Bild in beiden Versuchen.

[5] Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

Menschliche Bewertung 1: Beide Bilder haben warme Farbtöne und sehen gut aus. In Versuch 2 ist das Gesicht des Trainers angedeutet, was nicht gewünscht ist. Der Stil Wasserfarbe wurde nicht konsequent umgesetzt.

Auswertung

Auswertung der Metriken KI-generierter Bilder

Allgemeine Bildqualität

Die allgemeine Bildqualität wurde anhand der Metriken BRISQUE, NIQE, Entropie, Farbigkeit, Schärfe und Kontrast bewertet. Niedrige BRISQUE- und NIQE-Werte deuten auf eine hohe Bildqualität hin. OpenAI DALL·E 3 erzielte durchgehend niedrige NIQE-Werte, insbesondere bei den Inhalten Salzsee (NIQE 2,66) und Kostümbildner/in (NIQE 2,36), was auf eine natürliche und hochwertige Bildqualität hindeutet. Die hohen Entropie- und Farbigkeitswerte bei DALL·E 3 weisen auf detaillierte und lebendige Bilder hin, beispielsweise erreichte es bei Unterrichtsreihe zum Licht eine Farbigkeit von 50,01.

Stable Diffusion XL zeigte ebenfalls gute BRISQUE- und NIQE-Werte, besonders bei abstrakten Inhalten wie Einführung in negative Zahlen (BRISQUE -3,36, NIQE 2,56), was auf eine ausgezeichnete Bildqualität hindeutet. Die Entropiewerte waren konstant hoch, was detaillierte Bilder suggeriert, jedoch waren die Farbigkeitswerte teilweise geringer als bei DALL·E 3.

Flux [schnell] hatte im Vergleich höhere BRISQUE- und NIQE-Werte, beispielsweise bei Einführung in negative Zahlen (BRISQUE 72,99, NIQE 12,29), was auf eine geringere Bildqualität schließen lässt. Die niedrigeren Entropie- und Farbigkeitswerte deuten auf weniger detaillierte und weniger lebendige Bilder hin.

In Bezug auf Schärfe und Kontrast erzielte DALL·E 3 extrem hohe Schärfewerte, insbesondere bei Kostümbildner/in (1.397,38) und Salzsee (1.038,50), was sehr klare und detaillierte Bilder bedeutet. Flux [schnell] zeigte variable Schärfewerte, während Stable Diffusion XL im Vergleich niedrigere Schärfewerte hatte, was auf weniger scharfe Bilder hindeuten könnte.

Befolgung des Prompts

Die Befolgung des Prompts wurde durch die Metriken CLIP Score und BLIP Score bewertet. Höhere Werte deuten auf eine bessere semantische Übereinstimmung zwischen Bild und Prompt hin. OpenAI DALL·E 3 erzielte hohe BLIP Scores, nahe 0,96, was auf eine gute Übereinstimmung mit dem Prompt hindeutet. Allerdings waren die CLIP Scores teilweise niedriger als bei Flux.

Flux [schnell] erreichte bei einigen Inhalten höhere CLIP Scores, beispielsweise bei Salzsee (0,3870), was auf eine stärkere semantische Erfassung des Prompts hindeutet. Dies könnte bedeuten, dass Flux die Kernelemente des Prompts gut interpretiert, obwohl die allgemeine Bildqualität variabler ist.

Stable Diffusion XL zeigte konsistente, aber etwas niedrigere Werte in beiden Metriken, was auf eine solide, aber nicht herausragende Befolgung des Prompts hindeutet.

Einfluss des Inhalts

Der Inhalt hatte einen signifikanten Einfluss auf die Leistung der Modelle. Bei naturbezogenen Inhalten wie Salzsee lieferte DALL·E 3 hervorragende Ergebnisse in fast allen Metriken, was auf eine starke Fähigkeit hindeutet, natürliche Szenen realistisch und detailreich darzustellen. Flux zeigte bei diesem Inhalt eine Verbesserung in der Befolgung des Prompts (höherer CLIP Score).

Bei abstrakten Konzepten wie Einführung in negative Zahlen erzielte Stable Diffusion XL die besten BRISQUE- und NIQE-Werte (BRISQUE -3,36, NIQE 2,56), was darauf hindeutet, dass dieses Modell abstrakte Inhalte effektiv visualisieren kann. DALL·E 3 erreichte hier hohe Schärfe- und Farbigkeitswerte, was auf detaillierte Darstellungen schließen lässt.

Bei berufsspezifischen Inhalten wie Kostümbildner/in erzielten DALL·E 3 und Flux hohe Schärfe- und Kontrastwerte, was zeigt, dass sie komplexe Szenen mit vielen Details gut darstellen können. Stable Diffusion XL lieferte gute NIQE-Werte, was auf eine natürliche Bilddarstellung hindeutet.

Zusammenfassung der Metriken

Insgesamt ist OpenAI DALL·E 3 aufgrund seiner herausragenden Bildqualität und Fähigkeit, detaillierte und motivierende Bilder zu generieren, besonders geeignet für den Einsatz in Bildungsinhalten. Die klaren und lebendigen Bilder können das Lernen unterstützen und komplexe Themen greifbarer machen. Bei Inhalten, bei denen die genaue Befolgung des Prompts besonders wichtig ist, kann Flux [schnell] eine Alternative sein, obwohl mögliche Einschränkungen in der Bildqualität zu berücksichtigen sind. Für abstrakte Konzepte stellt Stable Diffusion XL eine solide Option dar, um hochwertige und verständliche Visualisierungen zu erzeugen.

Durch die gezielte Auswahl des Modells entsprechend den Anforderungen des Bildungsinhalts können qualitativ hochwertige Vorschaubilder erstellt werden, die den Lernprozess effektiv unterstützen und die Lernenden motivieren.

Auswertung der menschlichen Bewertung KI-generierter Bilder

…

Auswertung der menschlichen Bewertung von Open Graph Bildern

…

Fazit

….

OEde

Praxistest - Coworking 06.11.2024

Auswahl der Inhalte

Fragestellungen

Vorgehensweise

Durchführung

Testreihe 1 - Open Graph Images

Testreihe 2 - KI generierte Bilder

Prompt-Erstellung (Style 1)

Bewertungsergebnisse: Befolgung des Prompts

Bewertungsergebnisse: Allgemeine Bildqualität

Bewertungsergebnisse: Befolgung des Prompts

Vergleich der Metriken für KI-generierte Bilder

Inhalt 1: Unterrichtsreihe zum Licht

Inhalt 2: Salzsee

Inhalt 3: Einführung in negative Zahlen

Inhalt 4: Kostümbildner/in - Berufe am Theater

Inhalt 5: Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

Testreihe 3 (Vergleich Styles)

Testreihe 4 (Style Watercolor, Fix für abstrakte Konzepte)

Auswertung

Auswertung der Metriken KI-generierter Bilder

Allgemeine Bildqualität

Befolgung des Prompts

Einfluss des Inhalts

Zusammenfassung der Metriken

Auswertung der menschlichen Bewertung KI-generierter Bilder

Auswertung der menschlichen Bewertung von Open Graph Bildern

Fazit