Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Ziel der Testreihe in die Generierung von Vorschaubildern für Bildungsinhalte, bei denen bisher keine oder unzureichende Vorschaubilder existieren.

Auswahl der Inhalte

Die Inhalte sollten Beschreibungstexte/Titel haben, um gute Voraussetzungen für die Promptgenerierung zu schaffen. Es sollten verschiedene Fachbereiche und Themen abgedeckt werden:

...

Beschreibungstext: nicht vorhanden → Nutzung des Titels: Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

Fragestellungen

  • Evaluierung verschiedener Umsetzungsoptionen (Open Graph Images, KI-generierte Bilder)

  • Evaluierung des Gestaltung des Prompts

  • Evaluierung der Qualität/Anforderungen der KI-Bildgeneratoren

Vorgehensweise

  • Testreihe 1:

  • Testreihe 2:

    • Prompterzeugung für die Bild-KI mittels Text-KI (Open AI gpt-4o)

    • Nutzung der generierten Prompts mit verschiedenen Bildmodellen

      • OpenAI Dall-E 3

      • Stable Diffusion XL

      • Flux

Durchführung

Testreihe 1 - Open Graph Images

[1] Unterrichtsreihe zum Licht

...

Konnte nicht erhoben werden. Schlagwörter wurden definiert, es traten aber technische Probleme auf.

Testreihe 2 - KI generierte Bilder

Prompt-Erstellung (Style 1)

Der Text-Prompt für die Erzeugung der Bild-Prompts wurde nach einer Diskussionen im Team erweitert und um Anweisungen zur Vermeidung der Darstellung von Text und Gesichtern angepasst:

...

Output von OpenAI Dall-E 3:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

51.8900

Höher ist schlechter

1

NIQE

4.8000

Niedriger ist besser (NIQE < 5)

2

Entropie

9.2300

Höher ist besser

3

Farbigkeit

50.0100

Höher ist besser

4

Schärfe

279.8300

Höher ist besser

5

Kontrast

52.8400

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3089

Höher ist besser

1

BLIP Score

0.9595

Höher ist besser

Output von Flux [schnell]:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

60.3000

Höher ist schlechter

1

NIQE

6.7500

Höher ist schlechter

2

Entropie

8.4100

Höher ist besser

3

Farbigkeit

20.5300

Höher ist besser

4

Schärfe

110.4300

Höher ist besser

5

Kontrast

43.8400

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.2677

Höher ist besser

1

BLIP Score

0.9590

Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

43.3900

Niedriger ist besser (BRISQUE < 50)

1

NIQE

6.2300

Höher ist schlechter

2

Entropie

9.0100

Höher ist besser

3

Farbigkeit

50.0700

Höher ist besser

4

Schärfe

15.6500

Höher ist besser

5

Kontrast

52.8200

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.2552

Höher ist besser

1

BLIP Score

0.9591

Höher ist besser

...

Output von OpenAI Dall-E 3:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

8.5500

Niedriger ist besser (BRISQUE < 50)

1

NIQE

2.6600

Niedriger ist besser (NIQE < 5)

2

Entropie

9.1300

Höher ist besser

3

Farbigkeit

48.9700

Höher ist besser

4

Schärfe

1,038.5000

Höher ist besser

5

Kontrast

50.9600

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3722

Höher ist besser

1

BLIP Score

0.9566

Höher ist besser

Output von Flux [schnell]:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

17.4700

Niedriger ist besser (BRISQUE < 50)

1

NIQE

4.3400

Niedriger ist besser (NIQE < 5)

2

Entropie

7.5500

Höher ist besser

3

Farbigkeit

24.2500

Höher ist besser

4

Schärfe

45.6500

Höher ist besser

5

Kontrast

22.1000

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3870

Höher ist besser

1

BLIP Score

0.9563

Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

16.6700

Niedriger ist besser (BRISQUE < 50)

1

NIQE

4.5600

Niedriger ist besser (NIQE < 5)

2

Entropie

9.0600

Höher ist besser

3

Farbigkeit

20.3700

Höher ist besser

4

Schärfe

39.5100

Höher ist besser

5

Kontrast

53.1500

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3140

Höher ist besser

1

BLIP Score

0.9569

Höher ist besser

...

Output von OpenAI Dall-E 3:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

34.2600

Niedriger ist besser (BRISQUE < 50)

1

NIQE

4.4400

Niedriger ist besser (NIQE < 5)

2

Entropie

9.3500

Höher ist besser

3

Farbigkeit

44.6200

Höher ist besser

4

Schärfe

883.9300

Höher ist besser

5

Kontrast

58.9000

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.2658

Höher ist besser

1

BLIP Score

0.9615

Höher ist besser

Output von Flux [schnell]:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

72.9900

Höher ist schlechter

1

NIQE

12.2900

Höher ist schlechter

2

Entropie

7.4500

Höher ist besser

3

Farbigkeit

9.1500

Höher ist besser

4

Schärfe

536.2800

Höher ist besser

5

Kontrast

21.7500

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.2989

Höher ist besser

1

BLIP Score

0.9600

Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

-3.3600

Niedriger ist besser (BRISQUE < 50)

1

NIQE

2.5600

Niedriger ist besser (NIQE < 5)

2

Entropie

9.2300

Höher ist besser

3

Farbigkeit

26.0600

Höher ist besser

4

Schärfe

271.0300

Höher ist besser

5

Kontrast

60.1800

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.1928

Höher ist besser

1

BLIP Score

0.9632

Höher ist besser

...

Output von OpenAI Dall-E 3:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

19.5600

Niedriger ist besser (BRISQUE < 50)

1

NIQE

2.3600

Niedriger ist besser (NIQE < 5)

2

Entropie

9.3900

Höher ist besser

3

Farbigkeit

40.0700

Höher ist besser

4

Schärfe

1,397.3800

Höher ist besser

5

Kontrast

58.7100

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3626

Höher ist besser

1

BLIP Score

0.9596

Höher ist besser

Output von Flux [schnell]:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

42.5100

Niedriger ist besser (BRISQUE < 50)

1

NIQE

4.2100

Niedriger ist besser (NIQE < 5)

2

Entropie

9.3200

Höher ist besser

3

Farbigkeit

46.8400

Höher ist besser

4

Schärfe

1,334.8300

Höher ist besser

5

Kontrast

64.2500

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3504

Höher ist besser

1

BLIP Score

0.9598

Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

13.4600

Niedriger ist besser (BRISQUE < 50)

1

NIQE

3.0200

Niedriger ist besser (NIQE < 5)

2

Entropie

9.2000

Höher ist besser

3

Farbigkeit

37.4000

Höher ist besser

4

Schärfe

285.0400

Höher ist besser

5

Kontrast

66.7200

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3001

Höher ist besser

1

BLIP Score

0.9590

Höher ist besser

...

Output von OpenAI Dall-E 3:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

34.2000

Niedriger ist besser (BRISQUE < 50)

1

NIQE

2.9400

Niedriger ist besser (NIQE < 5)

2

Entropie

9.4400

Höher ist besser

3

Farbigkeit

42.1500

Höher ist besser

4

Schärfe

543.4700

Höher ist besser

5

Kontrast

66.0600

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.2922

Höher ist besser

1

BLIP Score

0.9582

Höher ist besser

Output von Flux [schnell]:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

30.8700

Niedriger ist besser (BRISQUE < 50)

1

NIQE

4.4800

Niedriger ist besser (NIQE < 5)

2

Entropie

8.9200

Höher ist besser

3

Farbigkeit

48.3900

Höher ist besser

4

Schärfe

263.1100

Höher ist besser

5

Kontrast

51.1700

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3248

Höher ist besser

1

BLIP Score

0.9550

Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

...

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

0

BRISQUE

38.0600

Niedriger ist besser (BRISQUE < 50)

1

NIQE

4.4700

Niedriger ist besser (NIQE < 5)

2

Entropie

9.1100

Höher ist besser

3

Farbigkeit

37.5100

Höher ist besser

4

Schärfe

43.2700

Höher ist besser

5

Kontrast

48.1300

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3164

Höher ist besser

1

BLIP Score

0.9571

Höher ist besser

Vergleich der Metriken für KI-generierte Bilder

Inhalt 1: Unterrichtsreihe zum Licht

Metrik (Besserer Wert)

OpenAI DALL·E 3

Flux [schnell]

Stable Diffusion XL

BRISQUE (niedriger ist besser)

51,89

60,30

43,39

NIQE (niedriger ist besser)

4,80

6,75

6,23

Entropie (höher ist besser)

9,23

8,41

9,01

Farbigkeit (höher ist besser)

50,01

20,53

50,07

Schärfe (höher ist besser)

279,83

110,43

15,65

Kontrast (höher ist besser)

52,84

43,84

52,82

Inception Score (höher ist besser)

1,00

1,00

1,00

CLIP Score (höher ist besser)

0,3089

0,2677

0,2552

BLIP Score (höher ist besser)

0,9595

0,9590

0,9591

Inhalt 2: Salzsee

Metrik (Besserer Wert)

OpenAI DALL·E 3

Flux [schnell]

Stable Diffusion XL

BRISQUE (niedriger ist besser)

8,55

17,47

16,67

NIQE (niedriger ist besser)

2,66

4,34

4,56

Entropie (höher ist besser)

9,13

7,55

9,06

Farbigkeit (höher ist besser)

48,97

24,25

20,37

Schärfe (höher ist besser)

1.038,50

45,65

39,51

Kontrast (höher ist besser)

50,96

22,10

53,15

Inception Score (höher ist besser)

1,00

1,00

1,00

CLIP Score (höher ist besser)

0,3722

0,3870

0,3140

BLIP Score (höher ist besser)

0,9566

0,9563

0,9569

Inhalt 3: Einführung in negative Zahlen

Metrik (Besserer Wert)

OpenAI DALL·E 3

Flux [schnell]

Stable Diffusion XL

BRISQUE (niedriger ist besser)

34,26

72,99

-3,36

NIQE (niedriger ist besser)

4,44

12,29

2,56

Entropie (höher ist besser)

9,35

7,45

9,23

Farbigkeit (höher ist besser)

44,62

9,15

26,06

Schärfe (höher ist besser)

883,93

536,28

271,03

Kontrast (höher ist besser)

58,90

21,75

60,18

Inception Score (höher ist besser)

1,00

1,00

1,00

CLIP Score (höher ist besser)

0,2658

0,2989

0,1928

BLIP Score (höher ist besser)

0,9615

0,9600

0,9632

Inhalt 4: Kostümbildner/in - Berufe am Theater

Metrik (Besserer Wert)

OpenAI DALL·E 3

Flux [schnell]

Stable Diffusion XL

BRISQUE (niedriger ist besser)

19,56

42,51

13,46

NIQE (niedriger ist besser)

2,36

4,21

3,02

Entropie (höher ist besser)

9,39

9,32

9,20

Farbigkeit (höher ist besser)

40,07

46,84

37,40

Schärfe (höher ist besser)

1.397,38

1.334,83

285,04

Kontrast (höher ist besser)

58,71

64,25

66,72

Inception Score (höher ist besser)

1,00

1,00

1,00

CLIP Score (höher ist besser)

0,3626

0,3504

0,3001

BLIP Score (höher ist besser)

0,9596

0,9598

0,9590

Inhalt 5: Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

Metrik (Besserer Wert)

OpenAI DALL·E 3

Flux [schnell]

Stable Diffusion XL

BRISQUE (niedriger ist besser)

34,20

30,87

38,06

NIQE (niedriger ist besser)

2,94

4,48

4,47

Entropie (höher ist besser)

9,44

8,92

9,11

Farbigkeit (höher ist besser)

42,15

48,39

37,51

Schärfe (höher ist besser)

543,47

263,11

43,27

Kontrast (höher ist besser)

66,06

51,17

48,13

Inception Score (höher ist besser)

1,00

1,00

1,00

CLIP Score (höher ist besser)

0,2922

0,3248

0,3164

BLIP Score (höher ist besser)

0,9582

0,9550

0,9571

Auswertung

Auswertung der Metriken KI-generierter Bilder

Allgemeine Bildqualität

Die allgemeine Bildqualität wurde anhand der Metriken BRISQUE, NIQE, Entropie, Farbigkeit, Schärfe und Kontrast bewertet. Niedrige BRISQUE- und NIQE-Werte deuten auf eine hohe Bildqualität hin. OpenAI DALL·E 3 erzielte durchgehend niedrige NIQE-Werte, insbesondere bei den Inhalten Salzsee (NIQE 2,66) und Kostümbildner/in (NIQE 2,36), was auf eine natürliche und hochwertige Bildqualität hindeutet. Die hohen Entropie- und Farbigkeitswerte bei DALL·E 3 weisen auf detaillierte und lebendige Bilder hin, beispielsweise erreichte es bei Unterrichtsreihe zum Licht eine Farbigkeit von 50,01.

...

In Bezug auf Schärfe und Kontrast erzielte DALL·E 3 extrem hohe Schärfewerte, insbesondere bei Kostümbildner/in (1.397,38) und Salzsee (1.038,50), was sehr klare und detaillierte Bilder bedeutet. Flux [schnell] zeigte variable Schärfewerte, während Stable Diffusion XL im Vergleich niedrigere Schärfewerte hatte, was auf weniger scharfe Bilder hindeuten könnte.

Befolgung des Prompts

Die Befolgung des Prompts wurde durch die Metriken CLIP Score und BLIP Score bewertet. Höhere Werte deuten auf eine bessere semantische Übereinstimmung zwischen Bild und Prompt hin. OpenAI DALL·E 3 erzielte hohe BLIP Scores, nahe 0,96, was auf eine gute Übereinstimmung mit dem Prompt hindeutet. Allerdings waren die CLIP Scores teilweise niedriger als bei Flux.

...

Stable Diffusion XL zeigte konsistente, aber etwas niedrigere Werte in beiden Metriken, was auf eine solide, aber nicht herausragende Befolgung des Prompts hindeutet.

Einfluss des Inhalts

Der Inhalt hatte einen signifikanten Einfluss auf die Leistung der Modelle. Bei naturbezogenen Inhalten wie Salzsee lieferte DALL·E 3 hervorragende Ergebnisse in fast allen Metriken, was auf eine starke Fähigkeit hindeutet, natürliche Szenen realistisch und detailreich darzustellen. Flux zeigte bei diesem Inhalt eine Verbesserung in der Befolgung des Prompts (höherer CLIP Score).

...

Bei berufsspezifischen Inhalten wie Kostümbildner/in erzielten DALL·E 3 und Flux hohe Schärfe- und Kontrastwerte, was zeigt, dass sie komplexe Szenen mit vielen Details gut darstellen können. Stable Diffusion XL lieferte gute NIQE-Werte, was auf eine natürliche Bilddarstellung hindeutet.

Zusammenfassung der Metriken

Insgesamt ist OpenAI DALL·E 3 aufgrund seiner herausragenden Bildqualität und Fähigkeit, detaillierte und motivierende Bilder zu generieren, besonders geeignet für den Einsatz in Bildungsinhalten. Die klaren und lebendigen Bilder können das Lernen unterstützen und komplexe Themen greifbarer machen. Bei Inhalten, bei denen die genaue Befolgung des Prompts besonders wichtig ist, kann Flux [schnell] eine Alternative sein, obwohl mögliche Einschränkungen in der Bildqualität zu berücksichtigen sind. Für abstrakte Konzepte stellt Stable Diffusion XL eine solide Option dar, um hochwertige und verständliche Visualisierungen zu erzeugen.

Durch die gezielte Auswahl des Modells entsprechend den Anforderungen des Bildungsinhalts können qualitativ hochwertige Vorschaubilder erstellt werden, die den Lernprozess effektiv unterstützen und die Lernenden motivieren.

Auswertung der menschlichen Bewertung KI-generierter Bilder

Auswertung der menschlichen Bewertung von Open Graph Bildern

Fazit

….