Praxistest - Coworking 06.11.2024

Praxistest - Coworking 06.11.2024

Ziel der Testreihe in die Generierung von Vorschaubildern für Bildungsinhalte, bei denen bisher keine oder unzureichende Vorschaubilder auf WLO existieren.

Dafür wurden verschiedene Inhalte ausgewählt und…

Auswahl der Inhalte

Die Inhalte sollten Beschreibungstexte/Titel haben, um gute Voraussetzungen für die Promptgenerierung zu schaffen. Es sollten verschiedene Fachbereiche und Themen abgedeckt werden:

[1] Unterrichtsreihe zum Licht

image-20241106-101121.png

Beschreibungstext: Diese Seite kann als Einstieg in eine Unterrichtsreihe zur Optik genutzt werden.

 

[2] Salzsee

image-20241106-101753.png

Beschreibungstext: Was ist eigentlich ein Salzsee? Und weshalb geht man dort nicht unter? Diese Fragen werden vom Klexikon altersgerecht erklärt.

 

[3] Einführung in negative Zahlen

image-20241106-101919.png

Beschreibungstext: In diesem Lernpfad lernst du negative Zahlen kennen. Nachdem du den Lernpfad bearbeitet hast, kannst du...

 

[4] Kostümbildner/in - Berufe am Theater

image-20241106-102401.png

Beschreibungstext: Konstümbildner/in am Theater: Berufsbild, Voraussetzungen, Ausbildung und Adressen

 

[5] Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

image-20241106-102833.png

Beschreibungstext: nicht vorhanden → Nutzung des Titels: Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

Fragestellungen

  • Evaluierung verschiedener Umsetzungsoptionen (Open Graph Images, KI-generierte Bilder)

  • Evaluierung des Gestaltung des Prompts

  • Evaluierung der Qualität/Anforderungen der KI-Bildgeneratoren

Vorgehensweise

  • Testreihe 1

  • Testreihe 2

    • Prompterzeugung für die Bild-KI mittels Text-KI (Open AI gpt-4o)

    • Nutzung der generierten Prompts mit verschiedenen Bildmodellen

      • OpenAI Dall-E 3

      • Stable Diffusion XL (Schnell in Fooocus)

      • Flux [schnell]

    • Testreihe 3

      • Demonstriert mit Inhalt 1 und Open Dall-E 3 die Wirkung von Styles

  • Maschinelle Bewertung mittels geeigneten Metriken für Bildqualität und Promptwirkung mit dem entwickelten Tool

  • Qualitative menschliche Bewertung basierend auf folgendem Leitfaden:

Leitfaden für die menschliche Bewertung Relevanz und Klarheit: - Vorschaubild spiegelt den Inhalt des Bildungsangebots treffend wider - Hauptmotiv ist klar erkennbar und unterstützt die Lehr-/Lernprozesse Gestaltung und Ästhetik: - Design ist klar und einfach, ohne überflüssige oder störende Elemente - Farb- und Kontrastwahl ist ansprechend und unterstützt die visuelle Orientierung Benutzerfreundlichkeit und Barrierefreiheit: - Hauptmerkmale des Bildes sind auch in kleiner Größe gut erkennbar - Barrierefreiheitsaspekte werden berücksichtigt (z. B. kontrastreiche Farben) Einhaltung der Promptvorgaben: - Bild enthält keine Texte, menschliche Gesichter oder überladene Elemente - Vorgaben des Prompts wurden für zielgerichtete Darstellung befolgt

Durchführung

Testreihe 1 - Open Graph Images

[1] Unterrichtsreihe zum Licht

image-20241106-103812.png
image-20241106-103748.png

Menschliche Bewertung 1:

Beide Grafiken haben mit dem Lerngegenstand zu tun, wobei Grafik 1 nicht ansprechend ist. Grafik 2 motiviert und lädt zum Lernen ein. Das Bild ist nicht überladen, enthält außer der generierten Schrift keine Buchstaben und zeigt nur Gesichter von Fantasie-Figuren. Eine direkte Nutzung ist nur möglich, wenn ein Mensch ein Auswahl trifft. Eventuell kann das Gegenchecken mittels NLP-Metrik die Auswahl unterstützen.

[2] Unterrichtsreihe zum Licht

image-20241106-104150.png
image-20241106-104246.png

Menschliche Bewertung 1:

Bild 1 bildet den Lerngegenstand ab, während Bild 2 keinen direkten Bezug zum Thema zu haben scheint. Die Qualität der Grafiken ist beiden Fällen nicht sehr hoch, wobei Grafik 1 zum Lernen geeignet ist. Es werden keine extra Schrift oder Gesicherter gezeigt.

[3] Einführung in negative Zahlen

image-20241106-104709.png
image-20241106-104618.png

Menschliche Bewertung 1:

Beide Grafiken haben nicht mit dem Lerngegenstand zu tun. Grafik 1 ist von der Qualität her besonders ungünstig und könnte problematische Inhalte haben. Eventuell lassen sich durch zusätzliche Bild-API weitere und damit geeignete Vorschläge generieren.

[4] Kostümbildner/in - Berufe am Theater

image-20241106-104943.png
image-20241106-105024.png

Menschliche Bewertung 1:

Bild 1 scheint inhaltlich geeignet zu sein. Bei Bild 2 erschließt sich der Themenbezug nicht. Die Bildqualität von Bild 1 ist gut, während Bild 2 leichtes Rauschen hat. Beide Bilder zeigen keine zusätzliche Schrift. Gesichter sind in Bild 1 enthalten aber nicht kritisch.

[5] Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen

image-20241106-105517.png

Konnte nicht erhoben werden. Schlagwörter wurden definiert, es traten aber technische Probleme auf.

Testreihe 2 - KI generierte Bilder

Prompt-Erstellung (Style 1)

Der Text-Prompt für die Erzeugung der Bild-Prompts wurde nach einer Diskussionen im Team erweitert und um Anweisungen zur Vermeidung der Darstellung von Text und Gesichtern angepasst:

Erstellen Sie einen englischen Prompt für eine Bild-KI basierend auf der folgenden Beschreibung des Bildungsinhalts. Der Prompt soll: Alle hier genannten Hinweise und Anforderungen einfließen lassen. Wichtige Schlagworte zum Bildungsinhalt enthalten. Sicherstellen, dass Objekte, Szenen und Sachverhalte möglichst realistisch und ohne Text oder Gesicherter dargestellt werden. Der erzeugte Prompt sollte dazu dienen, ein ansprechendes Vorschaubild zu generieren, das den Bildungsinhalt treffend widerspiegelt und die Lernenden motiviert. Beschreibung des Bildungsinhalts [Beschreibungstext oder Titel des Bildungsinhaltes hier einfügen ...] Anforderungen und Hinweise Hauptmotiv klar beschreiben: Identifizieren Sie das zentrale Element, das den Bildungsinhalt repräsentiert, und beschreiben Sie es detailliert. Relevante Details hinzufügen: Ergänzen Sie Kontext oder Umgebung, um das Verständnis zu unterstützen. Einfachheit und Klarheit betonen: Halten Sie das Design minimalistisch und vermeiden Sie unnötige Elemente, um die kognitive Belastung zu reduzieren. Realistische Darstellung: Stellen Sie sicher, dass Objekte, Szenen und Sachverhalte möglichst realistisch wiedergegeben werden und nicht verfälscht sind. Text im Bild vermeiden: Verzichten Sie auf jeglichen Text im Bild, um technische Schwierigkeiten und Redundanz zu vermeiden. Emotionale Ansprache: Verwenden Sie warme Farben und natürliches Licht, um eine einladende und motivierende Atmosphäre zu schaffen. Professionelle Qualität anstreben: Achten Sie auf hohe Auflösung, scharfen Fokus, klare Linien und eine ausgewogene Komposition. Kulturelle Sensibilität: Stellen Sie sicher, dass das Bild kulturell inklusiv und sensitiv ist, um alle Lernenden anzusprechen. Stilvorgaben Attribute: hochdetailliert, scharfe Fokussierung, poliert, makellos, ansprechend, Symmetrie, kohärent, minimalistisch, sauber, aufgeräumt Farben und Beleuchtung: helle Farben, natürliches Licht Designelemente: klare Linien, einfache Formen, ausbalancierte Komposition Qualität: professionelle Qualität, hohe Auflösung Ästhetik: elegant, geradlinig, modern, klare visuelle Hierarchie Hinweise zur Erstellung des Prompts Integrieren Sie wichtige Schlagworte aus dem Bildungsinhalt in den Prompt. Formulieren Sie den Prompt klar und präzise, um ein optimales Ergebnis von der Bild-KI zu erhalten. Stellen Sie sicher, dass der erzeugte englische Prompt alle Anforderungen erfüllt und alle Worte aus den Stilvorgaben enthält. Der Prompt sollte so formuliert sein, dass er von der Bild-KI direkt verwendet werden kann, um das gewünschte Vorschaubild zu generieren. Vermeiden Sie Texte im Bild, um technische Schwierigkeiten und das Prinzip der Redundanz zu berücksichtigen.

Für Dall-E 3 und Flux [schnell] wurden nur die Prompts genutzt. Bei SDXL schnell mit Fooocus wurde zusätzlich der Standard-Negativ-Prompt genutzt:

unrealistic, saturated, high contrast, big nose, painting, drawing, sketch, cartoon, anime, manga, render, CG, 3d, watermark, signature, label

 

[1] Unterrichtsreihe zum Licht

Create a high-resolution, professional-quality image for an educational preview on optics, designed to be an inviting and engaging introduction. The image should feature a polished, realistic depiction of a classic optics experiment setup in a minimalistic, modern classroom environment. The central element should be a high-quality, highly detailed glass prism positioned on a clean, reflective surface. Natural light passes through the prism, dispersing into a subtle, vivid spectrum of colors, casting soft reflections onto the surface to illustrate light refraction. In the background, include blurred but recognizable details of other optics equipment, such as a clean, symmetrical arrangement of lenses and light sources, arranged to suggest an organized educational setup. Maintain an elegant, clear visual hierarchy with balanced composition, clean lines, and a sense of symmetry to reduce cognitive load. Use warm, natural lighting to create an inviting and motivational atmosphere, ensuring bright colors and soft shadows that highlight the prism without unnecessary elements. Avoid any text, human faces, or extraneous objects to keep the focus on the optics theme. Ensure the image has cultural inclusivity, a modern aesthetic with sharp focus, and polished finishes for an appealing, professional look that draws students into the topic of optics.

Output von OpenAI Dall-E 3:

image-20241106-113539.png

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

 

Metrik

Wert

Bewertung

0

BRISQUE

51.8900

Höher ist schlechter

1

NIQE

4.8000

Niedriger ist besser (NIQE < 5)

2

Entropie

9.2300

Höher ist besser

3

Farbigkeit

50.0100

Höher ist besser

4

Schärfe

279.8300

Höher ist besser

5

Kontrast

52.8400

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3089

Höher ist besser

1

BLIP Score

0.9595

Höher ist besser

Output von Flux [schnell]:

image-20241106-114951.png

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

 

Metrik

Wert

Bewertung

0

BRISQUE

60.3000

Höher ist schlechter

1

NIQE

6.7500

Höher ist schlechter

2

Entropie

8.4100

Höher ist besser

3

Farbigkeit

20.5300

Höher ist besser

4

Schärfe

110.4300

Höher ist besser

5

Kontrast

43.8400

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

 

Metrik

Wert

Bewertung

0

CLIP Score

0.2677

Höher ist besser

1

BLIP Score

0.9590

Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

image-20241106-120807.png

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

 

Metrik

Wert

Bewertung

0

BRISQUE

43.3900

Niedriger ist besser (BRISQUE < 50)

1

NIQE

6.2300

Höher ist schlechter

2

Entropie

9.0100

Höher ist besser

3

Farbigkeit

50.0700

Höher ist besser

4

Schärfe

15.6500

Höher ist besser

5

Kontrast

52.8200

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

 

Metrik

Wert

Bewertung

0

CLIP Score

0.2552

Höher ist besser

1

BLIP Score

0.9591

Höher ist besser

[2] Salzsee

Create a highly detailed and polished image of a salt lake in a desert-like landscape, emphasizing its unique properties. The lake’s calm, almost mirror-like water surface reflects a clear blue sky with soft, white clouds, conveying the surreal and buoyant nature of salt lakes where objects float easily. Around the lake, depict smooth, minimalistic shores with subtle, salt-crusted textures to emphasize the unique mineral content. The environment is bright, with warm, natural lighting that enhances the lake’s clarity and color depth. Use bright, inviting colors and balanced composition to make the image aesthetically appealing and motivational. Capture the scene with sharp focus, clear lines, and a high-resolution finish, ensuring a clean, modern look with symmetry and elegant simplicity. Avoid including any text in the image. Attributes: high resolution, sharp focus, polished, flawless, appealing, symmetry, cohesive, minimalistic, clean, organized. Lighting and Colors: bright colors, natural light. Design Elements: clear lines, simple forms, balanced composition. Aesthetic: elegant, straightforward, modern, clear visual hierarchy.

Output von OpenAI Dall-E 3:

image-20241106-114050.png

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

 

Metrik

Wert

Bewertung

0

BRISQUE

8.5500

Niedriger ist besser (BRISQUE < 50)

1

NIQE

2.6600

Niedriger ist besser (NIQE < 5)

2

Entropie

9.1300

Höher ist besser

3

Farbigkeit

48.9700

Höher ist besser

4

Schärfe

1,038.5000

Höher ist besser

5

Kontrast

50.9600

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3722

Höher ist besser

1

BLIP Score

0.9566

Höher ist besser

Output von Flux [schnell]:

image-20241106-115947.png

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

 

Metrik

Wert

Bewertung

0

BRISQUE

17.4700

Niedriger ist besser (BRISQUE < 50)

1

NIQE

4.3400

Niedriger ist besser (NIQE < 5)

2

Entropie

7.5500

Höher ist besser

3

Farbigkeit

24.2500

Höher ist besser

4

Schärfe

45.6500

Höher ist besser

5

Kontrast

22.1000

Höher ist besser

6

Inception Score

1.0000

Höher ist besser

Bewertungsergebnisse: Befolgung des Prompts

 

Metrik

Wert

Bewertung

 

Metrik

Wert

Bewertung

0

CLIP Score

0.3870

Höher ist besser

1

BLIP Score

0.9563

Höher ist besser

Output von Stable Diffusion XL via Fooocus im Speed Modus:

image-20241106-120622.png

Bewertungsergebnisse: Allgemeine Bildqualität

 

Metrik

Wert

Bewertung

 

Metrik

Wert

Bewertung

0

BRISQUE

16.6700

Niedriger ist besser (BRISQUE < 50)

1

NIQE

4.5600

Niedriger ist besser (NIQE < 5)