Ziel der Testreihe in die Generierung von Vorschaubildern für Bildungsinhalte, bei denen bisher keine oder unzureichende Vorschaubilder existieren.
Auswahl der Inhalte
Die Inhalte sollten Beschreibungstexte/Titel haben, um gute Voraussetzungen für die Promptgenerierung zu schaffen. Es sollten verschiedene Fachbereiche und Themen abgedeckt werden:
...
Beschreibungstext: nicht vorhanden → Nutzung des Titels: Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen
Fragestellungen
Evaluierung verschiedener Umsetzungsoptionen (Open Graph Images, KI-generierte Bilder)
Evaluierung des Gestaltung des Prompts
Evaluierung der Qualität/Anforderungen der KI-Bildgeneratoren
Vorgehensweise
Testreihe 1:
Erstellung von Open Graph Images mittels experimentellen Tool
Testreihe 2:
Prompterzeugung für die Bild-KI mittels Text-KI (Open AI gpt-4o)
Nutzung der generierten Prompts mit verschiedenen Bildmodellen
OpenAI Dall-E 3
Stable Diffusion XL
Flux
Durchführung
Testreihe 1 - Open Graph Images
[1] Unterrichtsreihe zum Licht
...
Konnte nicht erhoben werden. Schlagwörter wurden definiert, es traten aber technische Probleme auf.
Testreihe 2 - KI generierte Bilder
Prompt-Erstellung (Style 1)
Der Text-Prompt für die Erzeugung der Bild-Prompts wurde nach einer Diskussionen im Team erweitert und um Anweisungen zur Vermeidung der Darstellung von Text und Gesichtern angepasst:
...
Output von OpenAI Dall-E 3:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 51.8900 | Höher ist schlechter |
1 | NIQE | 4.8000 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.2300 | Höher ist besser |
3 | Farbigkeit | 50.0100 | Höher ist besser |
4 | Schärfe | 279.8300 | Höher ist besser |
5 | Kontrast | 52.8400 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3089 | Höher ist besser |
1 | BLIP Score | 0.9595 | Höher ist besser |
Output von Flux [schnell]:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 60.3000 | Höher ist schlechter |
1 | NIQE | 6.7500 | Höher ist schlechter |
2 | Entropie | 8.4100 | Höher ist besser |
3 | Farbigkeit | 20.5300 | Höher ist besser |
4 | Schärfe | 110.4300 | Höher ist besser |
5 | Kontrast | 43.8400 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.2677 | Höher ist besser |
1 | BLIP Score | 0.9590 | Höher ist besser |
Output von Stable Diffusion XL via Fooocus im Speed Modus:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 43.3900 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 6.2300 | Höher ist schlechter |
2 | Entropie | 9.0100 | Höher ist besser |
3 | Farbigkeit | 50.0700 | Höher ist besser |
4 | Schärfe | 15.6500 | Höher ist besser |
5 | Kontrast | 52.8200 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.2552 | Höher ist besser |
1 | BLIP Score | 0.9591 | Höher ist besser |
...
Output von OpenAI Dall-E 3:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 8.5500 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 2.6600 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.1300 | Höher ist besser |
3 | Farbigkeit | 48.9700 | Höher ist besser |
4 | Schärfe | 1,038.5000 | Höher ist besser |
5 | Kontrast | 50.9600 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3722 | Höher ist besser |
1 | BLIP Score | 0.9566 | Höher ist besser |
Output von Flux [schnell]:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 17.4700 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.3400 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 7.5500 | Höher ist besser |
3 | Farbigkeit | 24.2500 | Höher ist besser |
4 | Schärfe | 45.6500 | Höher ist besser |
5 | Kontrast | 22.1000 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3870 | Höher ist besser |
1 | BLIP Score | 0.9563 | Höher ist besser |
Output von Stable Diffusion XL via Fooocus im Speed Modus:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 16.6700 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.5600 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.0600 | Höher ist besser |
3 | Farbigkeit | 20.3700 | Höher ist besser |
4 | Schärfe | 39.5100 | Höher ist besser |
5 | Kontrast | 53.1500 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3140 | Höher ist besser |
1 | BLIP Score | 0.9569 | Höher ist besser |
...
Output von OpenAI Dall-E 3:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 34.2600 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.4400 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.3500 | Höher ist besser |
3 | Farbigkeit | 44.6200 | Höher ist besser |
4 | Schärfe | 883.9300 | Höher ist besser |
5 | Kontrast | 58.9000 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.2658 | Höher ist besser |
1 | BLIP Score | 0.9615 | Höher ist besser |
Output von Flux [schnell]:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 72.9900 | Höher ist schlechter |
1 | NIQE | 12.2900 | Höher ist schlechter |
2 | Entropie | 7.4500 | Höher ist besser |
3 | Farbigkeit | 9.1500 | Höher ist besser |
4 | Schärfe | 536.2800 | Höher ist besser |
5 | Kontrast | 21.7500 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.2989 | Höher ist besser |
1 | BLIP Score | 0.9600 | Höher ist besser |
Output von Stable Diffusion XL via Fooocus im Speed Modus:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | -3.3600 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 2.5600 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.2300 | Höher ist besser |
3 | Farbigkeit | 26.0600 | Höher ist besser |
4 | Schärfe | 271.0300 | Höher ist besser |
5 | Kontrast | 60.1800 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.1928 | Höher ist besser |
1 | BLIP Score | 0.9632 | Höher ist besser |
...
Output von OpenAI Dall-E 3:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 19.5600 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 2.3600 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.3900 | Höher ist besser |
3 | Farbigkeit | 40.0700 | Höher ist besser |
4 | Schärfe | 1,397.3800 | Höher ist besser |
5 | Kontrast | 58.7100 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3626 | Höher ist besser |
1 | BLIP Score | 0.9596 | Höher ist besser |
Output von Flux [schnell]:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 42.5100 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.2100 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.3200 | Höher ist besser |
3 | Farbigkeit | 46.8400 | Höher ist besser |
4 | Schärfe | 1,334.8300 | Höher ist besser |
5 | Kontrast | 64.2500 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3504 | Höher ist besser |
1 | BLIP Score | 0.9598 | Höher ist besser |
Output von Stable Diffusion XL via Fooocus im Speed Modus:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 13.4600 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 3.0200 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.2000 | Höher ist besser |
3 | Farbigkeit | 37.4000 | Höher ist besser |
4 | Schärfe | 285.0400 | Höher ist besser |
5 | Kontrast | 66.7200 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3001 | Höher ist besser |
1 | BLIP Score | 0.9590 | Höher ist besser |
...
Output von OpenAI Dall-E 3:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 34.2000 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 2.9400 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.4400 | Höher ist besser |
3 | Farbigkeit | 42.1500 | Höher ist besser |
4 | Schärfe | 543.4700 | Höher ist besser |
5 | Kontrast | 66.0600 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.2922 | Höher ist besser |
1 | BLIP Score | 0.9582 | Höher ist besser |
Output von Flux [schnell]:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 30.8700 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.4800 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 8.9200 | Höher ist besser |
3 | Farbigkeit | 48.3900 | Höher ist besser |
4 | Schärfe | 263.1100 | Höher ist besser |
5 | Kontrast | 51.1700 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3248 | Höher ist besser |
1 | BLIP Score | 0.9550 | Höher ist besser |
Output von Stable Diffusion XL via Fooocus im Speed Modus:
...
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 38.0600 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.4700 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.1100 | Höher ist besser |
3 | Farbigkeit | 37.5100 | Höher ist besser |
4 | Schärfe | 43.2700 | Höher ist besser |
5 | Kontrast | 48.1300 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3164 | Höher ist besser |
1 | BLIP Score | 0.9571 | Höher ist besser |
Vergleich der Metriken für KI-generierte Bilder
Inhalt 1: Unterrichtsreihe zum Licht
Metrik (Besserer Wert) | OpenAI DALL·E 3 | Flux [schnell] | Stable Diffusion XL |
---|---|---|---|
BRISQUE (niedriger ist besser) | 51,89 | 60,30 | 43,39 |
NIQE (niedriger ist besser) | 4,80 | 6,75 | 6,23 |
Entropie (höher ist besser) | 9,23 | 8,41 | 9,01 |
Farbigkeit (höher ist besser) | 50,01 | 20,53 | 50,07 |
Schärfe (höher ist besser) | 279,83 | 110,43 | 15,65 |
Kontrast (höher ist besser) | 52,84 | 43,84 | 52,82 |
Inception Score (höher ist besser) | 1,00 | 1,00 | 1,00 |
CLIP Score (höher ist besser) | 0,3089 | 0,2677 | 0,2552 |
BLIP Score (höher ist besser) | 0,9595 | 0,9590 | 0,9591 |
Inhalt 2: Salzsee
Metrik (Besserer Wert) | OpenAI DALL·E 3 | Flux [schnell] | Stable Diffusion XL |
---|---|---|---|
BRISQUE (niedriger ist besser) | 8,55 | 17,47 | 16,67 |
NIQE (niedriger ist besser) | 2,66 | 4,34 | 4,56 |
Entropie (höher ist besser) | 9,13 | 7,55 | 9,06 |
Farbigkeit (höher ist besser) | 48,97 | 24,25 | 20,37 |
Schärfe (höher ist besser) | 1.038,50 | 45,65 | 39,51 |
Kontrast (höher ist besser) | 50,96 | 22,10 | 53,15 |
Inception Score (höher ist besser) | 1,00 | 1,00 | 1,00 |
CLIP Score (höher ist besser) | 0,3722 | 0,3870 | 0,3140 |
BLIP Score (höher ist besser) | 0,9566 | 0,9563 | 0,9569 |
Inhalt 3: Einführung in negative Zahlen
Metrik (Besserer Wert) | OpenAI DALL·E 3 | Flux [schnell] | Stable Diffusion XL |
---|---|---|---|
BRISQUE (niedriger ist besser) | 34,26 | 72,99 | -3,36 |
NIQE (niedriger ist besser) | 4,44 | 12,29 | 2,56 |
Entropie (höher ist besser) | 9,35 | 7,45 | 9,23 |
Farbigkeit (höher ist besser) | 44,62 | 9,15 | 26,06 |
Schärfe (höher ist besser) | 883,93 | 536,28 | 271,03 |
Kontrast (höher ist besser) | 58,90 | 21,75 | 60,18 |
Inception Score (höher ist besser) | 1,00 | 1,00 | 1,00 |
CLIP Score (höher ist besser) | 0,2658 | 0,2989 | 0,1928 |
BLIP Score (höher ist besser) | 0,9615 | 0,9600 | 0,9632 |
Inhalt 4: Kostümbildner/in - Berufe am Theater
Metrik (Besserer Wert) | OpenAI DALL·E 3 | Flux [schnell] | Stable Diffusion XL |
---|---|---|---|
BRISQUE (niedriger ist besser) | 19,56 | 42,51 | 13,46 |
NIQE (niedriger ist besser) | 2,36 | 4,21 | 3,02 |
Entropie (höher ist besser) | 9,39 | 9,32 | 9,20 |
Farbigkeit (höher ist besser) | 40,07 | 46,84 | 37,40 |
Schärfe (höher ist besser) | 1.397,38 | 1.334,83 | 285,04 |
Kontrast (höher ist besser) | 58,71 | 64,25 | 66,72 |
Inception Score (höher ist besser) | 1,00 | 1,00 | 1,00 |
CLIP Score (höher ist besser) | 0,3626 | 0,3504 | 0,3001 |
BLIP Score (höher ist besser) | 0,9596 | 0,9598 | 0,9590 |
Inhalt 5: Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen
Metrik (Besserer Wert) | OpenAI DALL·E 3 | Flux [schnell] | Stable Diffusion XL |
---|---|---|---|
BRISQUE (niedriger ist besser) | 34,20 | 30,87 | 38,06 |
NIQE (niedriger ist besser) | 2,94 | 4,48 | 4,47 |
Entropie (höher ist besser) | 9,44 | 8,92 | 9,11 |
Farbigkeit (höher ist besser) | 42,15 | 48,39 | 37,51 |
Schärfe (höher ist besser) | 543,47 | 263,11 | 43,27 |
Kontrast (höher ist besser) | 66,06 | 51,17 | 48,13 |
Inception Score (höher ist besser) | 1,00 | 1,00 | 1,00 |
CLIP Score (höher ist besser) | 0,2922 | 0,3248 | 0,3164 |
BLIP Score (höher ist besser) | 0,9582 | 0,9550 | 0,9571 |
Auswertung
Auswertung der Metriken KI-generierter Bilder
Allgemeine Bildqualität
Die allgemeine Bildqualität wurde anhand der Metriken BRISQUE, NIQE, Entropie, Farbigkeit, Schärfe und Kontrast bewertet. Niedrige BRISQUE- und NIQE-Werte deuten auf eine hohe Bildqualität hin. OpenAI DALL·E 3 erzielte durchgehend niedrige NIQE-Werte, insbesondere bei den Inhalten Salzsee (NIQE 2,66) und Kostümbildner/in (NIQE 2,36), was auf eine natürliche und hochwertige Bildqualität hindeutet. Die hohen Entropie- und Farbigkeitswerte bei DALL·E 3 weisen auf detaillierte und lebendige Bilder hin, beispielsweise erreichte es bei Unterrichtsreihe zum Licht eine Farbigkeit von 50,01.
...
In Bezug auf Schärfe und Kontrast erzielte DALL·E 3 extrem hohe Schärfewerte, insbesondere bei Kostümbildner/in (1.397,38) und Salzsee (1.038,50), was sehr klare und detaillierte Bilder bedeutet. Flux [schnell] zeigte variable Schärfewerte, während Stable Diffusion XL im Vergleich niedrigere Schärfewerte hatte, was auf weniger scharfe Bilder hindeuten könnte.
Befolgung des Prompts
Die Befolgung des Prompts wurde durch die Metriken CLIP Score und BLIP Score bewertet. Höhere Werte deuten auf eine bessere semantische Übereinstimmung zwischen Bild und Prompt hin. OpenAI DALL·E 3 erzielte hohe BLIP Scores, nahe 0,96, was auf eine gute Übereinstimmung mit dem Prompt hindeutet. Allerdings waren die CLIP Scores teilweise niedriger als bei Flux.
...
Stable Diffusion XL zeigte konsistente, aber etwas niedrigere Werte in beiden Metriken, was auf eine solide, aber nicht herausragende Befolgung des Prompts hindeutet.
Einfluss des Inhalts
Der Inhalt hatte einen signifikanten Einfluss auf die Leistung der Modelle. Bei naturbezogenen Inhalten wie Salzsee lieferte DALL·E 3 hervorragende Ergebnisse in fast allen Metriken, was auf eine starke Fähigkeit hindeutet, natürliche Szenen realistisch und detailreich darzustellen. Flux zeigte bei diesem Inhalt eine Verbesserung in der Befolgung des Prompts (höherer CLIP Score).
...
Bei berufsspezifischen Inhalten wie Kostümbildner/in erzielten DALL·E 3 und Flux hohe Schärfe- und Kontrastwerte, was zeigt, dass sie komplexe Szenen mit vielen Details gut darstellen können. Stable Diffusion XL lieferte gute NIQE-Werte, was auf eine natürliche Bilddarstellung hindeutet.
Zusammenfassung der Metriken
Insgesamt ist OpenAI DALL·E 3 aufgrund seiner herausragenden Bildqualität und Fähigkeit, detaillierte und motivierende Bilder zu generieren, besonders geeignet für den Einsatz in Bildungsinhalten. Die klaren und lebendigen Bilder können das Lernen unterstützen und komplexe Themen greifbarer machen. Bei Inhalten, bei denen die genaue Befolgung des Prompts besonders wichtig ist, kann Flux [schnell] eine Alternative sein, obwohl mögliche Einschränkungen in der Bildqualität zu berücksichtigen sind. Für abstrakte Konzepte stellt Stable Diffusion XL eine solide Option dar, um hochwertige und verständliche Visualisierungen zu erzeugen.
Durch die gezielte Auswahl des Modells entsprechend den Anforderungen des Bildungsinhalts können qualitativ hochwertige Vorschaubilder erstellt werden, die den Lernprozess effektiv unterstützen und die Lernenden motivieren.
Auswertung der menschlichen Bewertung KI-generierter Bilder
…
Auswertung der menschlichen Bewertung von Open Graph Bildern
…
Fazit
….