Ziel der Testreihe in die Generierung von Vorschaubildern für Bildungsinhalte, bei denen bisher keine oder unzureichende Vorschaubilder existieren.
Auswahl der Inhalte
Die Inhalte sollten Beschreibungstexte/Titel haben, um gute Voraussetzungen für die Promptgenerierung zu schaffen. Es sollten verschiedene Fachbereiche und Themen abgedeckt werden:
[1] Unterrichtsreihe zum Licht
Beschreibungstext: Diese Seite kann als Einstieg in eine Unterrichtsreihe zur Optik genutzt werden.
[2] Salzsee
Beschreibungstext: Was ist eigentlich ein Salzsee? Und weshalb geht man dort nicht unter? Diese Fragen werden vom Klexikon altersgerecht erklärt.
[3] Einführung in negative Zahlen
Beschreibungstext: In diesem Lernpfad lernst du negative Zahlen kennen. Nachdem du den Lernpfad bearbeitet hast, kannst du...
[4] Kostümbildner/in - Berufe am Theater
Beschreibungstext: Konstümbildner/in am Theater: Berufsbild, Voraussetzungen, Ausbildung und Adressen
[5] Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen
Beschreibungstext: nicht vorhanden → Nutzung des Titels: Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen
Fragestellungen
Evaluierung verschiedener Umsetzungsoptionen (Open Graph Images, KI-generierte Bilder)
Evaluierung des Gestaltung des Prompts
Evaluierung der Qualität/Anforderungen der KI-Bildgeneratoren
Vorgehensweise
Testreihe 1
Erstellung von Open Graph Images mittels experimentellen Tool
Testreihe 2
Prompterzeugung für die Bild-KI mittels Text-KI (Open AI gpt-4o)
Nutzung der generierten Prompts mit verschiedenen Bildmodellen
OpenAI Dall-E 3
Stable Diffusion XL (Schnell in Fooocus)
Flux [schnell]
Maschinelle Bewertung mittels geeigneten Metriken für Bildqualität und Promptwirkung mit dem entwickelten Tool
Qualitative menschliche Bewertung basierend auf folgenden Leitfaden:
Leitfaden für die menschliche Bewertung Relevanz und Klarheit: - Vorschaubild spiegelt den Inhalt des Bildungsangebots treffend wider - Hauptmotiv ist klar erkennbar und unterstützt die Lehr-/Lernprozesse Gestaltung und Ästhetik: - Design ist klar und einfach, ohne überflüssige oder störende Elemente - Farb- und Kontrastwahl ist ansprechend und unterstützt die visuelle Orientierung Benutzerfreundlichkeit und Barrierefreiheit: - Hauptmerkmale des Bildes sind auch in kleiner Größe gut erkennbar - Barrierefreiheitsaspekte werden berücksichtigt (z. B. kontrastreiche Farben) Einhaltung der Promptvorgaben: - Bild enthält keine Texte, menschlichen Gesichter oder überladene Elemente - Vorgaben des Prompts wurden für zielgerichtete Darstellung befolgt
Durchführung
Testreihe 1 - Open Graph Images
[1] Unterrichtsreihe zum Licht
Menschliche Bewertung 1:
Beide Grafiken haben mit dem Lerngegenstand zu tun, wobei Grafik 1 nicht ansprechend ist. Grafik 2 motiviert und lädt zum Lernen ein. Das Bild ist nicht überladen, enthält außer der generierten Schrift keine Buchstaben und zeigt nur Gesichter von Fantasie-Figuren. Eine direkte Nutzung ist nur möglich, wenn ein Mensch ein Auswahl trifft. Eventuell kann das gegenchecken mittels NLP-Metrik die Auswahl unterstützen.
[2] Unterrichtsreihe zum Licht
Menschliche Bewertung 1:
Bild 1 bildet den Lerngegenstand ab, während Bild 2 keinen direkten Bezug zum Thema zu haben scheint. Die Qualität der Grafiken ist beiden Fällen nicht sehr hoch, wobei Grafik 1 zum Lernen geeignet ist. Es werden keine extra Schrift oder Gesicherter gezeigt.
[3] Einführung in negative Zahlen
Menschliche Bewertung 1:
Beide Grafiken haben nicht mit dem Lerngegenstand zu tun. Grafik 1 ist von der Qualität her besonders ungünstig und könnte problematische Inhalte haben. Eventuell lassen sich durch zusätzliche Bild-API weitere und damit geeignete Vorschläge generieren.
[4] Kostümbildner/in - Berufe am Theater
Menschliche Bewertung 1:
XXX.
[5] Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen
Konnte nicht erhoben werden. Schlagwörter wurden definiert, es traten aber technische Probleme auf.
Testreihe 2 - KI generierte Bilder
Prompt-Erstellung (Style 1)
Der Text-Prompt für die Erzeugung der Bild-Prompts wurde nach einer Diskussionen im Team erweitert und um Anweisungen zur Vermeidung der Darstellung von Text und Gesichtern angepasst:
Erstellen Sie einen englischen Prompt für eine Bild-KI basierend auf der folgenden Beschreibung des Bildungsinhalts. Der Prompt soll: Alle hier genannten Hinweise und Anforderungen einfließen lassen. Wichtige Schlagworte zum Bildungsinhalt enthalten. Sicherstellen, dass Objekte, Szenen und Sachverhalte möglichst realistisch und ohne Text oder Gesicherter dargestellt werden. Der erzeugte Prompt sollte dazu dienen, ein ansprechendes Vorschaubild zu generieren, das den Bildungsinhalt treffend widerspiegelt und die Lernenden motiviert. Beschreibung des Bildungsinhalts [Beschreibungstext oder Titel des Bildungsinhaltes hier einfügen ...] Anforderungen und Hinweise Hauptmotiv klar beschreiben: Identifizieren Sie das zentrale Element, das den Bildungsinhalt repräsentiert, und beschreiben Sie es detailliert. Relevante Details hinzufügen: Ergänzen Sie Kontext oder Umgebung, um das Verständnis zu unterstützen. Einfachheit und Klarheit betonen: Halten Sie das Design minimalistisch und vermeiden Sie unnötige Elemente, um die kognitive Belastung zu reduzieren. Realistische Darstellung: Stellen Sie sicher, dass Objekte, Szenen und Sachverhalte möglichst realistisch wiedergegeben werden und nicht verfälscht sind. Text im Bild vermeiden: Verzichten Sie auf jeglichen Text im Bild, um technische Schwierigkeiten und Redundanz zu vermeiden. Emotionale Ansprache: Verwenden Sie warme Farben und natürliches Licht, um eine einladende und motivierende Atmosphäre zu schaffen. Professionelle Qualität anstreben: Achten Sie auf hohe Auflösung, scharfen Fokus, klare Linien und eine ausgewogene Komposition. Kulturelle Sensibilität: Stellen Sie sicher, dass das Bild kulturell inklusiv und sensitiv ist, um alle Lernenden anzusprechen. Stilvorgaben Attribute: hochdetailliert, scharfe Fokussierung, poliert, makellos, ansprechend, Symmetrie, kohärent, minimalistisch, sauber, aufgeräumt Farben und Beleuchtung: helle Farben, natürliches Licht Designelemente: klare Linien, einfache Formen, ausbalancierte Komposition Qualität: professionelle Qualität, hohe Auflösung Ästhetik: elegant, geradlinig, modern, klare visuelle Hierarchie Hinweise zur Erstellung des Prompts Integrieren Sie wichtige Schlagworte aus dem Bildungsinhalt in den Prompt. Formulieren Sie den Prompt klar und präzise, um ein optimales Ergebnis von der Bild-KI zu erhalten. Stellen Sie sicher, dass der erzeugte englische Prompt alle Anforderungen erfüllt und alle Worte aus den Stilvorgaben enthält. Der Prompt sollte so formuliert sein, dass er von der Bild-KI direkt verwendet werden kann, um das gewünschte Vorschaubild zu generieren. Vermeiden Sie Texte im Bild, um technische Schwierigkeiten und das Prinzip der Redundanz zu berücksichtigen.
Für Dall-E 3 und Flux [schnell] wurden nur die Prompts genutzt. Bei SDXL schnell mit Fooocus wurde zusätzlich der Standard-Negativ-Prompt genutzt:
unrealistic, saturated, high contrast, big nose, painting, drawing, sketch, cartoon, anime, manga, render, CG, 3d, watermark, signature, label
[1] Unterrichtsreihe zum Licht
Create a high-resolution, professional-quality image for an educational preview on optics, designed to be an inviting and engaging introduction. The image should feature a polished, realistic depiction of a classic optics experiment setup in a minimalistic, modern classroom environment. The central element should be a high-quality, highly detailed glass prism positioned on a clean, reflective surface. Natural light passes through the prism, dispersing into a subtle, vivid spectrum of colors, casting soft reflections onto the surface to illustrate light refraction. In the background, include blurred but recognizable details of other optics equipment, such as a clean, symmetrical arrangement of lenses and light sources, arranged to suggest an organized educational setup. Maintain an elegant, clear visual hierarchy with balanced composition, clean lines, and a sense of symmetry to reduce cognitive load. Use warm, natural lighting to create an inviting and motivational atmosphere, ensuring bright colors and soft shadows that highlight the prism without unnecessary elements. Avoid any text, human faces, or extraneous objects to keep the focus on the optics theme. Ensure the image has cultural inclusivity, a modern aesthetic with sharp focus, and polished finishes for an appealing, professional look that draws students into the topic of optics.
Output von OpenAI Dall-E 3:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 51.8900 | Höher ist schlechter |
1 | NIQE | 4.8000 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.2300 | Höher ist besser |
3 | Farbigkeit | 50.0100 | Höher ist besser |
4 | Schärfe | 279.8300 | Höher ist besser |
5 | Kontrast | 52.8400 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3089 | Höher ist besser |
1 | BLIP Score | 0.9595 | Höher ist besser |
Output von Flux [schnell]:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 60.3000 | Höher ist schlechter |
1 | NIQE | 6.7500 | Höher ist schlechter |
2 | Entropie | 8.4100 | Höher ist besser |
3 | Farbigkeit | 20.5300 | Höher ist besser |
4 | Schärfe | 110.4300 | Höher ist besser |
5 | Kontrast | 43.8400 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.2677 | Höher ist besser |
1 | BLIP Score | 0.9590 | Höher ist besser |
Output von Stable Diffusion XL via Fooocus im Speed Modus:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 43.3900 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 6.2300 | Höher ist schlechter |
2 | Entropie | 9.0100 | Höher ist besser |
3 | Farbigkeit | 50.0700 | Höher ist besser |
4 | Schärfe | 15.6500 | Höher ist besser |
5 | Kontrast | 52.8200 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.2552 | Höher ist besser |
1 | BLIP Score | 0.9591 | Höher ist besser |
[2] Salzsee
Create a highly detailed and polished image of a salt lake in a desert-like landscape, emphasizing its unique properties. The lake’s calm, almost mirror-like water surface reflects a clear blue sky with soft, white clouds, conveying the surreal and buoyant nature of salt lakes where objects float easily. Around the lake, depict smooth, minimalistic shores with subtle, salt-crusted textures to emphasize the unique mineral content. The environment is bright, with warm, natural lighting that enhances the lake’s clarity and color depth. Use bright, inviting colors and balanced composition to make the image aesthetically appealing and motivational. Capture the scene with sharp focus, clear lines, and a high-resolution finish, ensuring a clean, modern look with symmetry and elegant simplicity. Avoid including any text in the image. Attributes: high resolution, sharp focus, polished, flawless, appealing, symmetry, cohesive, minimalistic, clean, organized. Lighting and Colors: bright colors, natural light. Design Elements: clear lines, simple forms, balanced composition. Aesthetic: elegant, straightforward, modern, clear visual hierarchy.
Output von OpenAI Dall-E 3:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 8.5500 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 2.6600 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.1300 | Höher ist besser |
3 | Farbigkeit | 48.9700 | Höher ist besser |
4 | Schärfe | 1,038.5000 | Höher ist besser |
5 | Kontrast | 50.9600 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3722 | Höher ist besser |
1 | BLIP Score | 0.9566 | Höher ist besser |
Output von Flux [schnell]:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 17.4700 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.3400 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 7.5500 | Höher ist besser |
3 | Farbigkeit | 24.2500 | Höher ist besser |
4 | Schärfe | 45.6500 | Höher ist besser |
5 | Kontrast | 22.1000 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3870 | Höher ist besser |
1 | BLIP Score | 0.9563 | Höher ist besser |
Output von Stable Diffusion XL via Fooocus im Speed Modus:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 16.6700 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.5600 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.0600 | Höher ist besser |
3 | Farbigkeit | 20.3700 | Höher ist besser |
4 | Schärfe | 39.5100 | Höher ist besser |
5 | Kontrast | 53.1500 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3140 | Höher ist besser |
1 | BLIP Score | 0.9569 | Höher ist besser |
[3] Einführung in negative Zahlen
Create a high-quality, realistic preview image for an educational path about learning negative numbers, designed to motivate and engage students. The main visual focus should be a clean, elegant number line with both positive and negative values, fading into the distance to convey progression and depth of learning. Use simple, modern symbols to depict numbers, such as circles or squares, to avoid clutter and ensure a minimalist look. The scene should feel inviting, with warm, bright lighting and natural colors that emphasize clarity and simplicity. Place the number line on a neutral, clean background to maintain focus, with soft gradients to highlight progression from positive to negative values. Avoid any text or symbols beyond the number icons, and ensure a polished, high-resolution finish with clear, symmetrical lines and balanced composition. Ensure professional quality with high focus and polished aesthetics, using attributes like sharp focus, cleanliness, elegance, and modern design. The image should have a welcoming atmosphere, with natural lighting that evokes a sense of warmth and clarity, appealing inclusively to all students. Keep the visual hierarchy clear and direct to reduce cognitive load, enhancing focus on learning the concept of negative numbers.
Output von OpenAI Dall-E 3:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 34.2600 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.4400 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.3500 | Höher ist besser |
3 | Farbigkeit | 44.6200 | Höher ist besser |
4 | Schärfe | 883.9300 | Höher ist besser |
5 | Kontrast | 58.9000 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.2658 | Höher ist besser |
1 | BLIP Score | 0.9615 | Höher ist besser |
Output von Flux [schnell]:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 72.9900 | Höher ist schlechter |
1 | NIQE | 12.2900 | Höher ist schlechter |
2 | Entropie | 7.4500 | Höher ist besser |
3 | Farbigkeit | 9.1500 | Höher ist besser |
4 | Schärfe | 536.2800 | Höher ist besser |
5 | Kontrast | 21.7500 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.2989 | Höher ist besser |
1 | BLIP Score | 0.9600 | Höher ist besser |
Output von Stable Diffusion XL via Fooocus im Speed Modus:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | -3.3600 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 2.5600 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.2300 | Höher ist besser |
3 | Farbigkeit | 26.0600 | Höher ist besser |
4 | Schärfe | 271.0300 | Höher ist besser |
5 | Kontrast | 60.1800 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.1928 | Höher ist besser |
1 | BLIP Score | 0.9632 | Höher ist besser |
[4] Kostümbildner/in - Berufe am Theater
A high-resolution, realistic scene of a theater costume designer's workspace, focusing on the tools, fabric, and elements of costume design. The central area showcases a detailed costume on a dress form, surrounded by neatly arranged tools like scissors, measuring tape, fabric swatches, and sketches on a polished worktable. In the background, shelves with vibrant fabrics, patterns, and design materials add context, illuminated by soft, natural light streaming in through a window, creating a welcoming, professional atmosphere. The space is minimalistic, organized, and culturally sensitive, with no text, faces, or distracting elements. Warm colors and balanced composition enhance an inviting, elegant, and modern aesthetic, emphasizing clarity, sharp focus, and a clean visual hierarchy. Achieve a highly polished, professional quality with sharp lines, bright colors, and clear symmetry.
Output von OpenAI Dall-E 3:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 19.5600 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 2.3600 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.3900 | Höher ist besser |
3 | Farbigkeit | 40.0700 | Höher ist besser |
4 | Schärfe | 1,397.3800 | Höher ist besser |
5 | Kontrast | 58.7100 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3626 | Höher ist besser |
1 | BLIP Score | 0.9596 | Höher ist besser |
Output von Flux [schnell]:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 42.5100 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.2100 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.3200 | Höher ist besser |
3 | Farbigkeit | 46.8400 | Höher ist besser |
4 | Schärfe | 1,334.8300 | Höher ist besser |
5 | Kontrast | 64.2500 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3504 | Höher ist besser |
1 | BLIP Score | 0.9598 | Höher ist besser |
Output von Stable Diffusion XL via Fooocus im Speed Modus:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 13.4600 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 3.0200 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.2000 | Höher ist besser |
3 | Farbigkeit | 37.4000 | Höher ist besser |
4 | Schärfe | 285.0400 | Höher ist besser |
5 | Kontrast | 66.7200 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3001 | Höher ist besser |
1 | BLIP Score | 0.9590 | Höher ist besser |
[5] Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen
Create a realistic, high-resolution image depicting a calm, focused scene of a movement therapy session designed for adults experiencing non-specific lower back pain. Center the image on an adult participant, dressed in comfortable, neutral athletic wear, seated on a yoga mat in a spacious, well-lit room with wooden floors and minimalist decor. The person should be in a gentle, non-strenuous stretching pose, perhaps leaning forward with arms outstretched on the mat to emphasize careful, therapeutic movement. Surround the main subject with subtle, supportive elements like a soft cushion and a rolled-up towel nearby, ensuring an uncluttered environment that avoids distractions. The atmosphere should be warm and welcoming, achieved with natural, bright light streaming softly from large windows, and the colors should be warm and gentle, with an emphasis on soothing earthy tones. Maintain a sharp focus on the participant, highlighting details in posture and setting that convey professionalism and therapeutic intent. Ensure clear lines and balanced composition, with high polish and flawless quality for a clean, modern aesthetic. No text or visible faces; only back or side angles are shown for a universal appeal, and keep the design culturally inclusive and sensitive to encourage engagement from a diverse audience.
Output von OpenAI Dall-E 3:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 34.2000 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 2.9400 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.4400 | Höher ist besser |
3 | Farbigkeit | 42.1500 | Höher ist besser |
4 | Schärfe | 543.4700 | Höher ist besser |
5 | Kontrast | 66.0600 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.2922 | Höher ist besser |
1 | BLIP Score | 0.9582 | Höher ist besser |
Output von Flux [schnell]:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 30.8700 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.4800 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 8.9200 | Höher ist besser |
3 | Farbigkeit | 48.3900 | Höher ist besser |
4 | Schärfe | 263.1100 | Höher ist besser |
5 | Kontrast | 51.1700 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3248 | Höher ist besser |
1 | BLIP Score | 0.9550 | Höher ist besser |
Output von Stable Diffusion XL via Fooocus im Speed Modus:
Bewertungsergebnisse: Allgemeine Bildqualität
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | BRISQUE | 38.0600 | Niedriger ist besser (BRISQUE < 50) |
1 | NIQE | 4.4700 | Niedriger ist besser (NIQE < 5) |
2 | Entropie | 9.1100 | Höher ist besser |
3 | Farbigkeit | 37.5100 | Höher ist besser |
4 | Schärfe | 43.2700 | Höher ist besser |
5 | Kontrast | 48.1300 | Höher ist besser |
6 | Inception Score | 1.0000 | Höher ist besser |
Bewertungsergebnisse: Befolgung des Prompts
| Metrik | Wert | Bewertung |
---|---|---|---|
0 | CLIP Score | 0.3164 | Höher ist besser |
1 | BLIP Score | 0.9571 | Höher ist besser |
Vergleich der Metriken für KI-generierte Bilder
Inhalt 1: Unterrichtsreihe zum Licht
Metrik (Besserer Wert) | OpenAI DALL·E 3 | Flux [schnell] | Stable Diffusion XL |
---|---|---|---|
BRISQUE (niedriger ist besser) | 51,89 | 60,30 | 43,39 |
NIQE (niedriger ist besser) | 4,80 | 6,75 | 6,23 |
Entropie (höher ist besser) | 9,23 | 8,41 | 9,01 |
Farbigkeit (höher ist besser) | 50,01 | 20,53 | 50,07 |
Schärfe (höher ist besser) | 279,83 | 110,43 | 15,65 |
Kontrast (höher ist besser) | 52,84 | 43,84 | 52,82 |
Inception Score (höher ist besser) | 1,00 | 1,00 | 1,00 |
CLIP Score (höher ist besser) | 0,3089 | 0,2677 | 0,2552 |
BLIP Score (höher ist besser) | 0,9595 | 0,9590 | 0,9591 |
Inhalt 2: Salzsee
Metrik (Besserer Wert) | OpenAI DALL·E 3 | Flux [schnell] | Stable Diffusion XL |
---|---|---|---|
BRISQUE (niedriger ist besser) | 8,55 | 17,47 | 16,67 |
NIQE (niedriger ist besser) | 2,66 | 4,34 | 4,56 |
Entropie (höher ist besser) | 9,13 | 7,55 | 9,06 |
Farbigkeit (höher ist besser) | 48,97 | 24,25 | 20,37 |
Schärfe (höher ist besser) | 1.038,50 | 45,65 | 39,51 |
Kontrast (höher ist besser) | 50,96 | 22,10 | 53,15 |
Inception Score (höher ist besser) | 1,00 | 1,00 | 1,00 |
CLIP Score (höher ist besser) | 0,3722 | 0,3870 | 0,3140 |
BLIP Score (höher ist besser) | 0,9566 | 0,9563 | 0,9569 |
Inhalt 3: Einführung in negative Zahlen
Metrik (Besserer Wert) | OpenAI DALL·E 3 | Flux [schnell] | Stable Diffusion XL |
---|---|---|---|
BRISQUE (niedriger ist besser) | 34,26 | 72,99 | -3,36 |
NIQE (niedriger ist besser) | 4,44 | 12,29 | 2,56 |
Entropie (höher ist besser) | 9,35 | 7,45 | 9,23 |
Farbigkeit (höher ist besser) | 44,62 | 9,15 | 26,06 |
Schärfe (höher ist besser) | 883,93 | 536,28 | 271,03 |
Kontrast (höher ist besser) | 58,90 | 21,75 | 60,18 |
Inception Score (höher ist besser) | 1,00 | 1,00 | 1,00 |
CLIP Score (höher ist besser) | 0,2658 | 0,2989 | 0,1928 |
BLIP Score (höher ist besser) | 0,9615 | 0,9600 | 0,9632 |
Inhalt 4: Kostümbildner/in - Berufe am Theater
Metrik (Besserer Wert) | OpenAI DALL·E 3 | Flux [schnell] | Stable Diffusion XL |
---|---|---|---|
BRISQUE (niedriger ist besser) | 19,56 | 42,51 | 13,46 |
NIQE (niedriger ist besser) | 2,36 | 4,21 | 3,02 |
Entropie (höher ist besser) | 9,39 | 9,32 | 9,20 |
Farbigkeit (höher ist besser) | 40,07 | 46,84 | 37,40 |
Schärfe (höher ist besser) | 1.397,38 | 1.334,83 | 285,04 |
Kontrast (höher ist besser) | 58,71 | 64,25 | 66,72 |
Inception Score (höher ist besser) | 1,00 | 1,00 | 1,00 |
CLIP Score (höher ist besser) | 0,3626 | 0,3504 | 0,3001 |
BLIP Score (höher ist besser) | 0,9596 | 0,9598 | 0,9590 |
Inhalt 5: Bewegungstherapie für Erwachsene mit nicht-spezifischen Kreuzschmerzen
Metrik (Besserer Wert) | OpenAI DALL·E 3 | Flux [schnell] | Stable Diffusion XL |
---|---|---|---|
BRISQUE (niedriger ist besser) | 34,20 | 30,87 | 38,06 |
NIQE (niedriger ist besser) | 2,94 | 4,48 | 4,47 |
Entropie (höher ist besser) | 9,44 | 8,92 | 9,11 |
Farbigkeit (höher ist besser) | 42,15 | 48,39 | 37,51 |
Schärfe (höher ist besser) | 543,47 | 263,11 | 43,27 |
Kontrast (höher ist besser) | 66,06 | 51,17 | 48,13 |
Inception Score (höher ist besser) | 1,00 | 1,00 | 1,00 |
CLIP Score (höher ist besser) | 0,2922 | 0,3248 | 0,3164 |
BLIP Score (höher ist besser) | 0,9582 | 0,9550 | 0,9571 |
Auswertung
Auswertung der Metriken KI-generierter Bilder
Allgemeine Bildqualität
Die allgemeine Bildqualität wurde anhand der Metriken BRISQUE, NIQE, Entropie, Farbigkeit, Schärfe und Kontrast bewertet. Niedrige BRISQUE- und NIQE-Werte deuten auf eine hohe Bildqualität hin. OpenAI DALL·E 3 erzielte durchgehend niedrige NIQE-Werte, insbesondere bei den Inhalten Salzsee (NIQE 2,66) und Kostümbildner/in (NIQE 2,36), was auf eine natürliche und hochwertige Bildqualität hindeutet. Die hohen Entropie- und Farbigkeitswerte bei DALL·E 3 weisen auf detaillierte und lebendige Bilder hin, beispielsweise erreichte es bei Unterrichtsreihe zum Licht eine Farbigkeit von 50,01.
Stable Diffusion XL zeigte ebenfalls gute BRISQUE- und NIQE-Werte, besonders bei abstrakten Inhalten wie Einführung in negative Zahlen (BRISQUE -3,36, NIQE 2,56), was auf eine ausgezeichnete Bildqualität hindeutet. Die Entropiewerte waren konstant hoch, was detaillierte Bilder suggeriert, jedoch waren die Farbigkeitswerte teilweise geringer als bei DALL·E 3.
Flux [schnell] hatte im Vergleich höhere BRISQUE- und NIQE-Werte, beispielsweise bei Einführung in negative Zahlen (BRISQUE 72,99, NIQE 12,29), was auf eine geringere Bildqualität schließen lässt. Die niedrigeren Entropie- und Farbigkeitswerte deuten auf weniger detaillierte und weniger lebendige Bilder hin.
In Bezug auf Schärfe und Kontrast erzielte DALL·E 3 extrem hohe Schärfewerte, insbesondere bei Kostümbildner/in (1.397,38) und Salzsee (1.038,50), was sehr klare und detaillierte Bilder bedeutet. Flux [schnell] zeigte variable Schärfewerte, während Stable Diffusion XL im Vergleich niedrigere Schärfewerte hatte, was auf weniger scharfe Bilder hindeuten könnte.
Befolgung des Prompts
Die Befolgung des Prompts wurde durch die Metriken CLIP Score und BLIP Score bewertet. Höhere Werte deuten auf eine bessere semantische Übereinstimmung zwischen Bild und Prompt hin. OpenAI DALL·E 3 erzielte hohe BLIP Scores, nahe 0,96, was auf eine gute Übereinstimmung mit dem Prompt hindeutet. Allerdings waren die CLIP Scores teilweise niedriger als bei Flux.
Flux [schnell] erreichte bei einigen Inhalten höhere CLIP Scores, beispielsweise bei Salzsee (0,3870), was auf eine stärkere semantische Erfassung des Prompts hindeutet. Dies könnte bedeuten, dass Flux die Kernelemente des Prompts gut interpretiert, obwohl die allgemeine Bildqualität variabler ist.
Stable Diffusion XL zeigte konsistente, aber etwas niedrigere Werte in beiden Metriken, was auf eine solide, aber nicht herausragende Befolgung des Prompts hindeutet.
Einfluss des Inhalts
Der Inhalt hatte einen signifikanten Einfluss auf die Leistung der Modelle. Bei naturbezogenen Inhalten wie Salzsee lieferte DALL·E 3 hervorragende Ergebnisse in fast allen Metriken, was auf eine starke Fähigkeit hindeutet, natürliche Szenen realistisch und detailreich darzustellen. Flux zeigte bei diesem Inhalt eine Verbesserung in der Befolgung des Prompts (höherer CLIP Score).
Bei abstrakten Konzepten wie Einführung in negative Zahlen erzielte Stable Diffusion XL die besten BRISQUE- und NIQE-Werte (BRISQUE -3,36, NIQE 2,56), was darauf hindeutet, dass dieses Modell abstrakte Inhalte effektiv visualisieren kann. DALL·E 3 erreichte hier hohe Schärfe- und Farbigkeitswerte, was auf detaillierte Darstellungen schließen lässt.
Bei berufsspezifischen Inhalten wie Kostümbildner/in erzielten DALL·E 3 und Flux hohe Schärfe- und Kontrastwerte, was zeigt, dass sie komplexe Szenen mit vielen Details gut darstellen können. Stable Diffusion XL lieferte gute NIQE-Werte, was auf eine natürliche Bilddarstellung hindeutet.
Zusammenfassung der Metriken
Insgesamt ist OpenAI DALL·E 3 aufgrund seiner herausragenden Bildqualität und Fähigkeit, detaillierte und motivierende Bilder zu generieren, besonders geeignet für den Einsatz in Bildungsinhalten. Die klaren und lebendigen Bilder können das Lernen unterstützen und komplexe Themen greifbarer machen. Bei Inhalten, bei denen die genaue Befolgung des Prompts besonders wichtig ist, kann Flux [schnell] eine Alternative sein, obwohl mögliche Einschränkungen in der Bildqualität zu berücksichtigen sind. Für abstrakte Konzepte stellt Stable Diffusion XL eine solide Option dar, um hochwertige und verständliche Visualisierungen zu erzeugen.
Durch die gezielte Auswahl des Modells entsprechend den Anforderungen des Bildungsinhalts können qualitativ hochwertige Vorschaubilder erstellt werden, die den Lernprozess effektiv unterstützen und die Lernenden motivieren.
Auswertung der menschlichen Bewertung KI-generierter Bilder
…
Auswertung der menschlichen Bewertung von Open Graph Bildern
…
Fazit
….