1 Definition
2 Funktionen
3 Theoretische Grundlagen
- 3.1 Theorien zur Gestaltung von (digitalen) Lernmedien
4 Anforderungen
5 Gestaltungsempfehlungen
6 Nutzerfeedback und Tests
- 6.1 Fragestellungen
- 6.2 Tests
7 Hintergrundwissen zur Bildgenerierung
8 Tools und Scripte für Text zu Bildgeneratoren
9 Prompt-Erstellung für Text zu Bild Generatoren
10 Bestimmung der Bildqualität
- 10.1 Menschliche Bestimmung der Bildqualität
  - 10.1.1 Fragenkatalog zur Bewertung von Vorschaubildern für Bildungsinhalte
    - 10.1.1.1 Relevanz und Inhalt
    - 10.1.1.2 Gestaltung und Ästhetik
    - 10.1.1.3 Benutzerfreundlichkeit und Zugänglichkeit
    - 10.1.1.4 Didaktische und Kulturelle Aspekte
    - 10.1.1.5 Konsistenz und Markenidentität
  - 10.1.2 Skalenbeschreibung
- 10.2 Maschinelle Bestimmung der Bildqualität
  - 10.2.1 Metriken ohne Referenz (Allgemeine Metriken)
  - 10.2.2 Metriken mit Referenz
  - 10.2.3 Metriken mit Promptbezug
11 Quellen

Definition

“A picture is worth a thousand words.”

Vorschaubilder, auch bekannt als Thumbnails oder Coverbilder, sind kleine grafische Darstellungen, die digitale Bildungsinhalte visuell repräsentieren. Sie dienen als erste visuelle Anhaltspunkte für den Inhalt und unterstützen Nutzer*innen dabei, relevante Materialien schnell zu identifizieren.

Funktionen

Visuelle Orientierung: Sie bieten einen schnellen Überblick und erleichtern die Navigation durch verschiedene Bildungsressourcen.
Attraktivität erhöhen: Ansprechende Vorschaubilder können das Interesse der Lernenden wecken und die Motivation zur Nutzung des Materials steigern. [1]
Inhaltsvorschau: Sie vermitteln einen ersten Eindruck vom Thema oder der Art des Inhalts, was bei der Auswahl relevanter Materialien hilft.

Theoretische Grundlagen

Theorien zur Gestaltung von (digitalen) Lernmedien

Kognitive Theorie des multimedialen Lernens: Diese Theorie von Richard E. Mayer betont, dass Lernende Informationen effektiver verarbeiten, wenn sie sowohl visuell als auch verbal präsentiert werden. Gut gestaltete Vorschaubilder können das Interesse wecken und die kognitive Verarbeitung fördern. [ 5 ]

Theorie der dualen Kodierung: Allan Paivios Theorie besagt, dass Informationen sowohl verbal als auch visuell verarbeitet werden. Vorschaubilder unterstützen die visuelle Verarbeitung und erleichtern so das Verständnis und die Erinnerung an Inhalte. [ 7 ]

Multimodalitätsprinzip: Dieses Prinzip besagt, dass die Kombination von Text und passenden Grafiken den Lernerfolg steigert. Studien von Ruth Clark und Richard Mayer zeigen, dass Lernende in multimedialen Kursen durchschnittlich 89 % bessere Ergebnisse erzielen als in rein textbasierten Kursen. [ 12 ]

Kognitive Belastungstheorie: Diese Theorie betont, dass Lernmaterialien so gestaltet sein sollten, dass sie die kognitive Belastung minimieren. Gut gestaltete Vorschaubilder können helfen, die Informationsaufnahme zu erleichtern und die kognitive Belastung zu reduzieren. [ 6 ]

Redundanzprinzip: Dieses Prinzip besagt, dass die gleichzeitige Präsentation von identischem gesprochenem und geschriebenem Text das Lernen beeinträchtigen kann. Auf Vorschaubilder angewendet bedeutet dies, dass redundante Informationen vermieden werden sollten. Ein Vorschaubild sollte daher nicht denselben Text enthalten, der bereits im Titel oder der Beschreibung des Inhalts vorhanden ist, um kognitive Überlastung zu verhindern. [ 8 ]

Kohärenzprinzip: Das Kohärenzprinzip empfiehlt, überflüssige oder irrelevante Informationen zu entfernen, da sie vom eigentlichen Lerninhalt ablenken können. Für Vorschaubilder bedeutet dies, dass sie klar und fokussiert sein sollten, ohne unnötige dekorative Elemente, die die Aufmerksamkeit vom Hauptinhalt ablenken könnten. [ 9 ]

Kontiguitätsprinzip: Dieses Prinzip betont die Bedeutung der räumlichen Nähe von zusammengehörenden Informationen. Bei Vorschaubildern sollte darauf geachtet werden, dass relevante Texte und Bilder eng beieinander platziert sind, um die Zuordnung zu erleichtern und das Verständnis zu fördern. [ 10 ]

Personalisierungsprinzip: Das Personalisierungsprinzip besagt, dass ein persönlicher, umgangssprachlicher Stil das Lernen unterstützt. Obwohl Vorschaubilder per se nicht sprachlich sind, können sie durch die Darstellung von Szenen oder Charakteren, die eine persönliche Ansprache suggerieren, eine Verbindung zum Lernenden herstellen und so die Motivation und das Engagement erhöhen. [ 11 ]

Anforderungen

Theoriegeleitete Anforderungen an Vorschaubilder

Kombination von Text und Bild: Passende Grafiken mit kurzen Texten fördern das Verständnis. (Kognitive Theorie des multimedialen Lernens)
Visuelle Unterstützung: Klare, inhaltsrelevante Bilder erleichtern das Verständnis und die Erinnerung. (Theorie der dualen Kodierung)
Multimodale Darstellung: Die Kombination von Text und Bild verbessert den Lernerfolg. (Multimodalitätsprinzip)
Kognitive Entlastung: Vermeide überladenes Design, um die kognitive Belastung zu reduzieren. (Kognitive Belastungstheorie)
Vermeidung von Redundanz: Wiederhole keine Texte aus dem Titel oder der Beschreibung im Bild, um Überlastung zu verhindern. (Redundanzprinzip)
Klarheit und Fokus: Verwende keine unnötigen dekorativen Elemente, die ablenken könnten. (Kohärenzprinzip)
Räumliche Nähe: Eng beieinander platzierte zusammengehörige Infos unterstützen das Verständnis. (Kontiguitätsprinzip)
Persönliche Ansprache: Nutze zielgruppengerechte Bilder, die Nähe und Engagement fördern. (Personalisierungsprinzip)

Allgemeine Anforderungen an Vorschaubilder

Relevanz: Das Bild sollte den Inhalt des Bildungsangebots treffend widerspiegeln.
Klarheit: Die Hauptmerkmale des Bildes müssen auch in kleiner Größe erkennbar sein.
Konsistenz: Einheitliche Gestaltung innerhalb einer Serie oder Plattform fördert die Wiedererkennung.
Barrierefreiheit: Alt-Texte und kontrastreiche Farben unterstützen Nutzer*innen mit Sehbehinderungen.
Rechtliche Aspekte: Bilder sollten urheberrechtsfrei oder unter offenen Lizenzen wie OER stehen.

Bildungsbezogene Anforderungen

Didaktische Relevanz: Das Vorschaubild sollte den pädagogischen Zweck des Inhalts unterstützen und Lernziele visuell hervorheben.
Altersgerechte Gestaltung: Die Bildsprache sollte dem Alter und Entwicklungsstand der Zielgruppe entsprechen.
Kulturelle Sensibilität: Kulturell vielfältige und inklusive Bilder sprechen alle Lernenden an und vermeiden Diskriminierung.
Vermeidung von Ablenkungen: Das Bild sollte den Fokus auf den Lerninhalt lenken und keine überflüssigen Elemente enthalten.

Gestaltungsempfehlungen

Klarheit und Einfachheit

Das Bild sollte klar und einfach gestaltet sein, damit es auch in kleiner Größe gut erkennbar ist.

Unterscheidbarkeit zu anderen Inhalten

In Suchergebnislisten sollte das Bild helfen, Inhalte gut unterscheidbar und auswählbar zu machen.

Angemessen hohe Bildqualität

Bilder sollten in ausreichend hoher Qualität (Bildschärfe) verwendet werden, um sie für verschiedene Verwendungszwecke skalieren zu können, z. B. kleine Formate für Suchkacheln oder größere Formate für Einzelansichten.
Content-Verwaltungen sollten die nötige Bildauflösung für übliche Darstellungsgrößen unterstützen und für kleinere Darstellungen die Bilder in guter Qualität (Bildschärfe) herunterrechnen.

Gestaltung und auffällige Elemente

Farb- und Kontrastwahl sollten die Aufmerksamkeit erregen, aber dennoch angenehm sein.
Farb- und Formwahl können auch die Zielgruppe gut darstellen (z. B. für Kinder oder Erwachsene).
Häufige Sehbehinderungen, wie Farbenblindheit, sollten berücksichtigt und gegebenenfalls mit Prüftools überprüft werden.
Elemente wie Gesichter oder emotionale Ausdrücke ziehen die Aufmerksamkeit besonders an, müssen aber zum Inhalt passen.

Text im Bild

Texte in Vorschaubildern sind problematisch, da sie bei automatischen Übersetzungen oder Vorlesefunktionen für Sehbehinderte verloren gehen.
Dennoch sind Texte im Bildungsbereich oft hilfreich, wenn sie beispielsweise eine beschriftete Prinzipgrafik unterstützen (z. B. Diagramm).
Wenn Text im Bild verwendet wird, sollte er kurz, prägnant und gut lesbar sein und die Aussage des Bildes unterstützen.

Markenidentität

Manche von Quellen gelieferte Vorschaubilder integrieren die Markenidentität (z. B. Anbieterlogo).
Dies kann eine ungünstige Dopplung darstellen, falls die Suchmaschine den Anbieter zusätzlich auf einer Suchergebnisanzeige darstellt.
Eine Anzeige einer Marke oder die Wahl eines bestimmten Corporate Designs kann Suchenden helfen, renommierte Inhalte zu finden (z. B. "Die Sendung mit der Maus").

Optimierung für Suchmaschinen

Die Bilddatei sollte mit relevanten Schlüsselwörtern benannt sein, die den Inhalt des Bildes und des dazugehörigen Artikels beschreiben.
Eine gute ALT-Beschreibung unterstützt analog die Auffindbarkeit.

Nutzerfeedback und Tests

Fragestellungen

Wie unterstützt dieses Metadatum die Auffindbarkeit?
- Gute Vorschaubilder unterstützen die Auffindbarkeit, das zeigten Nutzerbefragungen.
- Screenshots, die von Crawlern automatisch generiert werden, sind aber nicht immer hilfreich (und Cookie-Banner stören teilweise dieses Verfahren)
Verwenden Nutzende dieses Metadatum bei Suchvorgängen?
Welche Praxis existiert bei der Erstellung dieses Metadatums seitens Nutzenden.
Welche Anleitungen / Best practices sind in der Praxis wie erfolgreich?
Kann man die Qualität von Vorschaubildern maschinell bewerten?

Tests

Praxistests vom Co-Working am 06.11.2024

Hintergrundwissen zur Bildgenerierung

Die Bildgenerierung mittels Künstlicher Intelligenz (KI) hat in den letzten Jahren erhebliche Fortschritte gemacht. Text-zu-Bild-Modelle wie DALL·E von OpenAI und Midjourney können aus Texteingaben Bilder erstellen. Sie nutzen umfangreiche Datensätze von Text-Bild-Paaren, um die Beziehung zwischen Sprache und visuellen Darstellungen zu erlernen. Weitere Infos zur Funktionsweise gibt es hier: [ 14 ].

Wichtige Begriffe

GANs (Generative Adversarial Networks): Diese Netzwerke bestehen aus zwei konkurrierenden Modellen – einem Generator, der versucht, realistische Bilder zu erzeugen, und einem Diskriminator, der zwischen echten und generierten Bildern unterscheidet. Durch dieses Zusammenspiel entstehen besonders realistische Bilder.
VAE (Variational Autoencoders): Diese Modelle komprimieren Bilddaten in einen latenten Raum und generieren daraus neue, ähnliche Bilder. Sie sind nützlich für die Datenkompression und die Generierung variantenreicher Bilder.
Diffusionsmodelle: Ein neuer Ansatz zur Bildgenerierung, bei dem ein Bild aus einem „Rauschen“ entsteht, das schrittweise durch das Modell verfeinert wird. Diffusionsmodelle gelten als sehr leistungsfähig für hochauflösende und detailreiche Bilder.
Prompts: Sind Textbeschreibungen oder kommagetrennte Schlagwörter, die das zu erzeugende Bild beschreiben und Hinweise zum Stil und zur Gestaltung geben können.
Negativ-Prompts: Sind Textbeschreibungen oder kommagetrennte Schlagwörter, die beschreiben, was nicht dargestellt werden soll z.B. Text oder Rauschen.
Prompt Engineering: Die Technik, Textanfragen („Prompts“) so zu gestalten, dass die KI die bestmöglichen Ergebnisse liefert. Für Bildgeneratoren bedeutet dies, detaillierte Beschreibungen zu formulieren, die das gewünschte Bild möglichst genau beschreiben.
ControlNets: basieren auf neuronalen Netzwerken, die zusätzlich zum Hauptmodell trainiert werden. Sie fungieren als eine Art "Leitplanke" für den Generierungsprozess.
Latenter Raum (Latent Space): Eine reduzierte Darstellung von Bilddaten, die KI-Modelle verwenden, um wichtige Merkmale eines Bildes zu speichern und daraus Variationen zu erstellen.
LoRAs (Low-Rank Adaptations): LoRAs sind spezialisierte Erweiterungen bestehender KI-Modelle wie Stable Diffusion. Sie ermöglichen es, spezifische Stile oder Konzepte in die Bildgenerierung zu integrieren, ohne das gesamte Modell neu zu trainieren. Dies spart Ressourcen und Zeit.
CLIP (Contrastive Language–Image Pretraining): Ein KI-Modell, das Texte und Bilder miteinander verknüpfen kann. Es ist besonders nützlich für Text-zu-Bild-Modelle, bei denen ein Bild auf Basis einer textlichen Beschreibung erstellt wird.
Neural Radiance Fields (NeRFs): Eine Methode zur 3D-Bildgenerierung, die Ansichten eines Objekts aus verschiedenen Perspektiven erstellt und ein 3D-Modell generiert.
Segmentierung (Segmentation): Eine Technik zur Unterteilung eines Bildes in verschiedene Bereiche oder Objekte, die KI-Modelle verwenden, um bestimmte Bildteile gezielt zu bearbeiten oder zu erzeugen.
Style Transfer: Mit dieser Technik wird der Stil eines Bildes auf ein anderes übertragen, zum Beispiel der eines Gemäldes auf ein Foto.
Image-to-Image Translation: Diese Methode übersetzt ein Bild in ein anderes, etwa von Schwarz-Weiß zu Farbe.
Steps (Schritte): bezieht sich auf die Anzahl der Iterationen, die ein KI-Modell während des Bildgenerierungsprozesses durchläuft. Jeder Schritt verfeinert das Bild weiter, indem Rauschen reduziert und Details hinzugefügt werden. Eine höhere Anzahl von Schritten kann zu detaillierteren und realistischeren Bildern führen, erhöht jedoch auch die Rechenzeit. Neuere Modelle versuchen auch mit einer geringeren Anzahl an Schritten gute Ergebnisse zu erzielen und schneller zu arbeiten.
Super Resolution: KI-Algorithmen erhöhen die Auflösung von Bildern und machen sie detailreicher.
Image Inpainting: Diese Technik füllt fehlende oder beschädigte Bereiche in Bildern realistisch auf.
Multimodale KI: Multimodale KI kann verschiedene Datentypen wie Text, Bild und Ton kombinieren und miteinander verarbeiten, um vielseitigere Anwendungen zu ermöglichen.

Kommerzielle Text zu Bild Generatoren

DALL·E 3 von OpenAI: Die neueste Version dieses Modells erzeugt hochauflösende Bilder aus Texteingaben und ist für ihre Fähigkeit bekannt, komplexe Szenen detailgetreu darzustellen. Sie ist in ChatGPT integriert.
Google Imagen 3 ist ein fortschrittliches KI-Modell zur Bildgenerierung, das es ermöglicht, aus einfachen Texteingaben hochwertige Bilder in verschiedenen Stilen zu erstellen. Es ist in die Gemini-Plattform integriert.
Midjourney: Ein KI-Bildgenerator, der durch seine künstlerischen und stilisierten Bildausgaben besticht und in der Kreativbranche weit verbreitet ist.
Adobe Firefly: Adobes generatives KI-Modell, integriert in Anwendungen wie Photoshop und Illustrator, ermöglicht die Erstellung und Bearbeitung von Bildern direkt innerhalb der Adobe-Software.

Open Source Text zu Bild Generatoren

Stable Diffusion: Ein leistungsfähiges Modell zur Bildgenerierung, das als Open-Source-Projekt verfügbar ist und eine breite Anwendung in verschiedenen kreativen Bereichen findet.
Flux: Eine Open-Source-Bild-KI aus Deutschland, die es ermöglicht, die KI mit eigenen Fotos zu trainieren und anschließend KI-Bilder mit dem eigenen Gesicht zu erstellen.
Craiyon (ehemals DALL·E Mini): Ein zugänglicher KI-Bildgenerator, der bemerkenswerte Bilder basierend auf einfachen Texteingaben erstellt.

Unterschiede zwischen den Text zu Bild Generatoren

Fähigkeiten: Häufig auftretende Herausforderungen wie z.B. die Darstellung von Schrift, Händen und konsistenten Charakteren werden unterschiedlich gut gemeistert. Aktuell erhält z.B. Flux viel Aufmerksamkeit für die bessere Generierung von Schriften. Aber andere Modelle werden auch fortlaufend verbessert.
Die technischen Anforderungen für KI-Bildgenerierungsmodelle variieren je nach Komplexität und Architektur des jeweiligen Modells. Häufig werden GPUs mit hohem Speicher benötigt.
Weiterführende Vergleiche und Tests findet man hier: [ 15, 16 ].

Ressourcenschonende Text zu Bild Generatoren

Stable Diffusion: Innerhalb der Modell-Familie gibt es auf Geschwindigkeit optimierte Modelle wie z.B. SD XL Turbo oder SD XL Lightning von ByteDance.
Fooocus: Fooocus ist ein Open-Source-Bildgenerator, der auf dem eigenen PC betrieben werden kann. Es zeichnet sich durch einfache Bedienung und professionelle Funktionen aus und basiert intern auf SD XL.
FLUX.1 [schnell]: Diese Variante des Flux-Modells ist speziell für schnelle und ressourcenschonende Bildgenerierung optimiert. Sie kann auf weniger leistungsfähiger Hardware betrieben werden und bietet dennoch qualitativ hochwertige Ergebnisse.

Alternativen zu Text zu Bild Generatoren

Open Graph Images sind Bilddateien, die auf Website gehostet werden. Sie werden durch spezielle Meta-Tags im HTML-Header der Webseite referenziert, um festzulegen, welches Bild angezeigt wird, wenn die Seite in sozialen Netzwerken geteilt wird. Mit ihnen werden Banner-ähnliche Vorschaubilder realisiert, die aus grafischen Elementen, Text und Bildern bestehen können. Anbieter für solche Generatoren sind z.B. Open Graph Tool oder Free Open Graph Image Generator.
Dynamische Bildgenerierung mit Programmiersprachen: Mit einer Text KI können Bilder “programmiert” werden z.B. Vektorgrafiken im SVG Standard oder Canvas.
Nutzung von ASCII-Art: Erstellung von Bildern und Designs ausschließlich mit Textzeichen.
Einsatz von Icon-Fonts: Icon-Fonts bieten skalierbare Symbole, die wie Schriftarten behandelt werden.

Tools und Scripte für Text zu Bildgeneratoren

Siehe Tools Rubirk.

Prompt-Erstellung für Text zu Bild Generatoren

Herangehensweise

Klare Zielsetzung definieren: Überlegen Sie zunächst, welches Bild Sie erzeugen möchten. Berücksichtigen Sie dabei den Verwendungszweck, die Zielgruppe und die gewünschte Botschaft des Bildes. Eine genaue Vorstellung erleichtert die präzise Formulierung des Prompts.
Detaillierte Beschreibung des Motivs: Beschreiben Sie das Hauptmotiv des Bildes so genau wie möglich. Statt allgemeiner Begriffe wie "Hund" verwenden Sie spezifische Beschreibungen wie "ein brauner Labrador, der im Park spielt".
Festlegung des Kontextes und der Umgebung: Geben Sie an, in welchem Umfeld das Hauptmotiv dargestellt werden soll. Beispielsweise: "ein brauner Labrador, der im Park spielt, umgeben von blühenden Kirschbäumen".
Bestimmung des Stils und der Stimmung: Definieren Sie den gewünschten künstlerischen Stil und die Atmosphäre des Bildes. Beispielsweise: "im impressionistischen Stil mit einer fröhlichen, lebhaften Stimmung".
Verwendung spezifischer Adjektive und Details: Nutzen Sie beschreibende Adjektive, um Farben, Texturen und weitere Details zu spezifizieren. Beispielsweise: "ein lebhaftes, farbenfrohes Gemälde einer fröhlichen Menschenmenge auf einem belebten Marktplatz".
Angabe technischer Spezifikationen: Falls relevant, können Sie technische Details wie Auflösung, Seitenverhältnis oder Beleuchtung angeben. Beispielsweise: "hochauflösendes Bild im Querformat mit natürlicher Beleuchtung".
Iteratives Testen und Anpassen: Nach der Generierung des Bildes sollten Sie das Ergebnis überprüfen und den Prompt bei Bedarf anpassen, um das gewünschte Resultat zu erzielen. Dieser iterative Prozess hilft, die Genauigkeit und Qualität der generierten Bilder zu verbessern.

Grundlegende Elemente des Prompts

Bildtyp: Bestimmen Sie die Art des gewünschten Bildes, z. B. Foto, Illustration, 3D-Rendering oder Gemälde. Diese Angabe hilft der KI, den passenden Stil und die Technik zu wählen.
Hauptmotiv: Beschreiben Sie das zentrale Element des Bildes detailliert. Statt allgemeiner Begriffe wie "Hund" verwenden Sie spezifische Beschreibungen wie "ein brauner Labrador, der im Park spielt".
Umgebung/Szenerie: Geben Sie den Kontext oder Hintergrund des Hauptmotivs an, z. B. "in einem nebligen Wald bei Sonnenaufgang". Dies verleiht dem Bild Tiefe und Atmosphäre.
Stimmung/Atmosphäre: Definieren Sie die gewünschte emotionale Wirkung des Bildes, z. B. "mit düsterer Stimmung" oder "fröhlich und lebhaft". Diese Angabe beeinflusst die Farbgebung und Beleuchtung.
Farbpalette: Spezifizieren Sie die dominanten Farben oder das Farbschema, z. B. "warme Erdtöne" oder "pastellfarbene Nuancen". Dies hilft der KI, die visuelle Ästhetik des Bildes zu gestalten.
Beleuchtung: Beschreiben Sie die Lichtverhältnisse, z. B. "sanftes natürliches Licht des späten Nachmittags" oder "dramatische Schatten bei Nachtbeleuchtung". Die Beleuchtung beeinflusst die Stimmung und den Fokus des Bildes.
Perspektive/Blickwinkel: Geben Sie den gewünschten Blickwinkel oder die Kameraposition an, z. B. "Vogelperspektive" oder "extreme Nahaufnahme". Dies bestimmt, wie das Hauptmotiv im Bild dargestellt wird.
Detailgrad: Bestimmen Sie den gewünschten Detaillierungsgrad, z. B. "hyperrealistisch" oder "abstrakt". Dies beeinflusst die Komplexität und Feinheit der Bilddetails.
Komposition: Beschreiben Sie die Anordnung und Balance der Bildelemente, z. B. "symmetrische Komposition" oder "nach dem goldenen Schnitt". Eine durchdachte Komposition führt zu einem harmonischen Bildaufbau.

Styles

Künstlerische Stile:
- Impressionismus: Betont Licht und Farbe mit weichen, flüchtigen Pinselstrichen.
- Kubismus: Zerlegt Motive in geometrische Formen und zeigt mehrere Perspektiven gleichzeitig.
- Surrealismus: Verbindet realistische Details mit fantastischen, traumähnlichen Szenen.
- Pop-Art: Nutzt kräftige Farben und klare Linien, oft inspiriert von Massenmedien und Popkultur.
Fotografische Stile:
- Schwarz-Weiß-Fotografie: Fokus auf Kontraste und Texturen ohne Farbe.
- Makrofotografie: Detailreiche Nahaufnahmen kleiner Objekte.
- Langzeitbelichtung: Erzeugt Bewegungsunschärfe und Lichtspuren.
- Vintage-Fotografie: Verleiht Bildern einen nostalgischen, gealterten Look.
Designstile:
- Minimalismus: Verwendet einfache Formen und eine reduzierte Farbpalette.
- Art déco: Charakterisiert durch geometrische Muster und luxuriöse Details.
- Steampunk: Kombiniert viktorianische Ästhetik mit mechanischen Elementen.
- Cyberpunk: Fokus auf futuristische, dystopische Szenarien mit Neonlichtern.
Medienstile:
- Anime: Japanischer Animationsstil mit charakteristischen Figuren und Hintergründen.
- Comicstil: Verwendet kräftige Linien und oft übertriebene Proportionen.
- Aquarell: Erzeugt weiche, fließende Farbverläufe und Transparenzen.

Eine gute Demonstration zur Umsetzung von Styles mit passenden Prompt-Anweisungen findet man bei Fooocus: https://docs.google.com/spreadsheets/d/1qtpG06Oxvl6ZtKb9F4_p4qNJxNaUW8TXaxC6LrFa9yM/edit?gid=2125777153#gid=2125777153

Style-Vorschläge für Bildung (auf Basis der Anforderungen)

Style 1: Klarer und einfacher Stil mit warmen Farben

Beschreibung: Dieser Stil legt den Fokus auf Klarheit, Einfachheit und Übersichtlichkeit, um den Lerninhalt prägnant und leicht verständlich darzustellen. Ideal für grundlegende Bildungsressourcen, die eine schnelle Orientierung und minimale kognitive Belastung bieten sollen.

highly detailed, sharp focus, polished, pristine, attractive, symmetry, coherent, minimalistic, clean, uncluttered, warm colors, natural light, clear lines, simple shapes, balanced composition, professional quality, high-resolution, elegant, straightforward, modern, clear visual hierarchy

Style 2: Interaktive und engagierende Darstellung mit hohen Kontrasten

Beschreibung: Dieser Stil fördert die Motivation und das Engagement der Lernenden durch dynamische, lebendige und ansprechende visuelle Elemente. Ideal für interaktive Lernmaterialien, die Bewegung, Zusammenarbeit und aktive Teilnahme visualisieren sollen.

cinematic, dramatic light, vibrant, dynamic compositions, volumetric lighting, energetic, colorful, high contrast, detailed textures, interactive, engaging, lively, modern aesthetics, professional quality, high-resolution, bright colors, sharp focus, polished, attractive, motion blur, creative compositions, immersive details

Style 3: Kulturell Sensible und inklusive Darstellung mit weicher Beleuchtung

Beschreibung: Dieser Stil stellt sicher, dass Bildungsinhalte alle Lernenden ansprechen, indem kulturelle Vielfalt und Inklusion authentisch und respektvoll dargestellt werden. Ideal für multikulturelle und inklusive Lernumgebungen, die Diversität betonen.

beautiful, harmonious, intricate details, inclusive illustration styles, vibrant and harmonious color palettes, diverse representation, authentic, respectful, balanced composition, multicultural, soft lighting, natural colors, detailed textures, professional quality, high-resolution, elegant, coherent, visually appealing, rich textures, culturally diverse, engaging

Zusätzliche Tipps für die Prompt-Optimierung

Spezifische Adjektive: Verwenden von klaren Adjektiven zur Beschreibung (z. B. hell, rund, glatt).
Experimentieren mit Formulierungen: Verschiedene Satzstellungen und Wortwahl ausprobieren.
Negative Prompts: Begriffe, die explizit ausgeschlossen werden sollen (z. B. „kein Text“).
Gewichtungen und Iterationen: Anpassung der Wichtigkeit einzelner Begriffe und schrittweises Verfeinern basierend auf den Ergebnissen.
Sprache: Es empfiehlt sich den Prompt in die englische Sprache zu übersetzen, da die meisten Modelle mit mehr englisch-sprachigen Quellen trainiert wurden.
Bildgröße: Beachten Sie die empfohlene Bildgröße der Modelle. In der Regel mind. 512 x 512. Darunter können Qualitätsverluste auftreten. Quadratisches Formate werden z.T. bevorzugt.
CFG-Scale (Classifier Guidance Scale): Regelt, wie strikt das Modell den Prompt befolgt. (nicht bei allen Modellen verfügbar)
- 1 = Prompt wird fast ignoriert.
- 7 = Gleichgewicht zwischen Einhaltung und kreativer Freiheit.
- 30 = Strikte Einhaltung des Prompts.
Sampling-Steps: Mehr Schritte erhöhen die Bildqualität. Empfehlung: 20 Schritte mit Euler-Sampler.
Batch-Größe: Mehrere Bilder (4 oder 8) gleichzeitig generieren, um verschiedene Varianten zu erhalten.

Prompt-Generator für Bildung

Es empfiehlt sich zunächst mit einer Text-KI einen englischen Prompt basierend auf den Beschreibungstexten der Bildungsinhalte zu erstellen, der dann für die Bild-KI genutzt werden kann. Hierbei können die Anforderungen, Styles und Hinweise mit eingearbeitet werden.

Hier ist ein Beispiel für einen Prompt-Generator, der den zuvor definierten Stil 1 nutzt. Es müssen an der markierten Stelle die Infos zum Bildungsinhalt gefügt werden (der damit erzeugte Prompt kann dann in der Bild-KI genutzt werden).

Erstellen Sie einen englischen Prompt für eine Bild-KI basierend auf der folgenden Beschreibung des Bildungsinhalts. Der Prompt soll:

Alle hier genannten Hinweise und Anforderungen einfließen lassen.
Wichtige Schlagworte zum Bildungsinhalt enthalten.
Sicherstellen, dass Objekte, Szenen und Sachverhalte möglichst realistisch und ohne Text dargestellt werden.
Der erzeugte Prompt sollte dazu dienen, ein ansprechendes Vorschaubild zu generieren, das den Bildungsinhalt treffend widerspiegelt und die Lernenden motiviert.

Beschreibung des Bildungsinhalts
[Beschreibungstext des Bildungsinhaltes hier einfügen ...]

Anforderungen und Hinweise

Hauptmotiv klar beschreiben: Identifizieren Sie das zentrale Element, das den Bildungsinhalt repräsentiert, und beschreiben Sie es detailliert.
Relevante Details hinzufügen: Ergänzen Sie Kontext oder Umgebung, um das Verständnis zu unterstützen.
Einfachheit und Klarheit betonen: Halten Sie das Design minimalistisch und vermeiden Sie unnötige Elemente, um die kognitive Belastung zu reduzieren.
Realistische Darstellung: Stellen Sie sicher, dass Objekte, Szenen und Sachverhalte möglichst realistisch wiedergegeben werden und nicht verfälscht sind.
Text im Bild vermeiden: Verzichten Sie auf jeglichen Text im Bild, um technische Schwierigkeiten und Redundanz zu vermeiden.
Emotionale Ansprache: Verwenden Sie warme Farben und natürliches Licht, um eine einladende und motivierende Atmosphäre zu schaffen.
Professionelle Qualität anstreben: Achten Sie auf hohe Auflösung, scharfen Fokus, klare Linien und eine ausgewogene Komposition.
Kulturelle Sensibilität: Stellen Sie sicher, dass das Bild kulturell inklusiv und sensitiv ist, um alle Lernenden anzusprechen.

Stilvorgaben

Attribute: hochdetailliert, scharfe Fokussierung, poliert, makellos, ansprechend, Symmetrie, kohärent, minimalistisch, sauber, aufgeräumt
Farben und Beleuchtung: warme Farben, natürliches Licht
Designelemente: klare Linien, einfache Formen, ausbalancierte Komposition
Qualität: professionelle Qualität, hohe Auflösung
Ästhetik: elegant, geradlinig, modern, klare visuelle Hierarchie

Hinweise zur Erstellung des Prompts

Integrieren Sie wichtige Schlagworte aus dem Bildungsinhalt in den Prompt.
Formulieren Sie den Prompt klar und präzise, um ein optimales Ergebnis von der Bild-KI zu erhalten.
Stellen Sie sicher, dass der erzeugte englische Prompt alle Anforderungen erfüllt und alle Worte aus den Stilvorgaben enthält.
Der Prompt sollte so formuliert sein, dass er von der Bild-KI direkt verwendet werden kann, um das gewünschte Vorschaubild zu generieren.
Vermeiden Sie Texte im Bild, um technische Schwierigkeiten und das Prinzip der Redundanz zu berücksichtigen.

Beispiel mit einem WLO-Inhalt:

Wie wir Farben sehen I Wahrnehmung
Beschreibung: Die Welt in allen Farben sehen -- das ermöglichen spezialisierte Lichtsinneszellen der Netzhaut, die Zapfen. Es gibt drei verschiedene Arten, die Licht unterschiedlicher Wellenlänge rezipieren. Doch die Buntheit der Welt schafft erst das Gehirn.

Ergebnis des Prompts für die Bild-KI (mit gpt-4o erstellt):

Create a high-resolution, realistic illustration focusing on the specialized photoreceptor cells called cone cells within the human retina, which enable vision in a full spectrum of colors. Show three types of cone cells in close-up, with microscopic precision and clear differentiation, each representing distinct light wavelengths. In the background, subtly include neural pathways leading towards the brain, symbolizing the brain’s critical role in creating the perception of color. The composition should be minimalistic, with balanced symmetry and a clean design, using warm colors and natural lighting to evoke an inviting, motivational atmosphere. Emphasize clarity and simplicity with clean lines, straightforward forms, and an organized, cohesive visual structure that directs attention toward the main elements without unnecessary details. Attributes should include high detail, sharp focus, polished and pristine aesthetics, and an appealing, culturally inclusive presentation. Avoid any text in the image to ensure clarity and avoid distractions. Attributes: highly detailed, sharp focus, polished, pristine, symmetrical, cohesive, minimalistic, clean, and organized.

Ergebnis mit Dall-E3 (OpenAI):

Bestimmung der Bildqualität

Menschliche Bestimmung der Bildqualität

Dies wird meist durch paarweise Vergleiche generierter Bilder von unterschiedlichen KI-Modellen realisiert und in Leaderboards abgebildet z.B. hier: https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard

Alternativ könnte ein Fragenkatalog mit einer Bewertungsmatrix entwickelt werden, der die oben genannten Anforderungen berücksichtigt. Beispiel:

Fragenkatalog zur Bewertung von Vorschaubildern für Bildungsinhalte

Jede Frage kann auf einer 5-Punkte-Likert-Skala bewertet werden,
wobei 1 = Stimme überhaupt nicht zu und 5 = Stimme voll und ganz zu bedeutet.

Relevanz und Inhalt

Das Vorschaubild spiegelt den Inhalt des Bildungsangebots treffend wider.
- 1 ← → 5
Das Hauptmotiv des Bildes ist klar erkennbar und unterstützt die Lernziele.
- 1 ← → 5
Das Bild vermittelt einen ersten Eindruck vom Thema oder der Art des Inhalts.
- 1 ← → 5

Gestaltung und Ästhetik

Das Design des Vorschaubildes ist klar und einfach, ohne überflüssige Elemente.
- 1 ← → 5
Die Farb- und Kontrastwahl ist ansprechend und unterstützt die visuelle Orientierung.
- 1 ← → 5
Das Bild ist in hoher Qualität (Auflösung, Schärfe) gestaltet.
- 1 ← → 5

Benutzerfreundlichkeit und Zugänglichkeit

Die Hauptmerkmale des Bildes sind auch in kleiner Größe gut erkennbar.
- 1 ← → 5
Das Vorschaubild berücksichtigt Barrierefreiheitsaspekte (z.B. kontrastreiche Farben, keine Textelemente).
- 1 ← → 5

Didaktische und Kulturelle Aspekte

Das Bild unterstützt den pädagogischen Zweck des Inhalts und hebt die Lernziele visuell hervor.
- 1 ← → 5
Die Bildsprache ist altersgerecht und entspricht dem Entwicklungsstand der Zielgruppe.
- 1 ← → 5
Das Vorschaubild ist kulturell sensibel und inklusiv gestaltet, sodass es alle Lernenden anspricht.
- 1 ← → 5

Konsistenz und Markenidentität

Das Vorschaubild ist konsistent mit anderen Bildern innerhalb derselben Serie oder Plattform.
- 1 ← → 5

Skalenbeschreibung

1 – Stimme überhaupt nicht zu
2 – Stimme eher nicht zu
3 – Neutral
4 – Stimme eher zu
5 – Stimme voll und ganz zu

Optional: Offene Fragen zur Ergänzung

Zusätzlich zu den bewertenden Fragen können folgende offene Fragen hilfreich sein, um detailliertes Feedback zu erhalten:

Welche Elemente des Vorschaubildes finden Sie besonders ansprechend oder unpassend?
Haben Sie Verbesserungsvorschläge für das Design oder die Darstellung des Bildes?
Inwiefern unterstützt das Vorschaubild Ihre Motivation, die Bildungsinhalte zu nutzen?

Maschinelle Bestimmung der Bildqualität

Für die maschinelle Bewertung bieten sich verschiedene Metriken an. Diese können unterschieden werden, ob neben dem generieten Bild noch eine Referenz und/oder der Prompt notwendig ist. Neben allgemeinen Aussagen zur Qualität des Bilds, lassen sich u.a. auch die Befolgung des Prompts und die Übereinstimmung zur Referenz bewerten.

Metriken ohne Referenz (Allgemeine Metriken)

Diese Metriken bewerten die Qualität der Bilder unabhängig von einem spezifischen Referenzbild.

Metrik	Beschreibung	Was wird gemessen	Aussagen	Implementiert im Skript

Metrik	Beschreibung	Was wird gemessen	Aussagen	Implementiert im Skript
BRISQUE	Bewertet die Bildqualität basierend auf natürlichen Bildstatistiken ohne Referenz.	Bildqualität und Natürlichkeit ohne Referenzbild.	Niedrigere BRISQUE-Werte deuten auf eine bessere Bildqualität hin.	✔️
NIQE	Bewertet die Natürlichkeit und Qualität des Bildes ohne Referenz.	Natürlichkeit und Bildqualität ohne Referenz.	Niedrigere NIQE-Werte deuten auf eine höhere Bildqualität und Natürlichkeit hin.	✔️
Entropie	Misst den Informationsgehalt und die Komplexität des Bildes.	Informationsgehalt und Komplexität des Bildes.	Höhere Entropiewerte deuten auf komplexere und detailliertere Bilder hin.	✔️
Farbigkeit	Bewertet die Farbintensität und -vielfalt im Bild.	Farbintensität und -vielfalt im Bild.	Höhere Farbwerte bedeuten lebendigere und farbenfrohere Bilder.	✔️
Schärfe	Bewertet die Schärfe und Klarheit der Bilddetails.	Schärfe und Klarheit der Bilddetails.	Höhere Schärfewerte deuten auf schärfere und klarere Bilder hin.	✔️
Kontrast	Misst den Kontrast des Bildes.	Differenz zwischen den hellsten und dunkelsten Bereichen.	Höhere Kontrastwerte deuten auf lebendigere und dynamischere Bilder hin.	✔️
Inception Score (IS)	Bewertet die Qualität und Vielfalt der generierten Bilder basierend auf einem vortrainierten Inception-Modell.	Klarheit der generierten Objekte und Vielfalt der Bildinhalte.	Höhere IS-Werte deuten auf klarere und vielfältigere generierte Bilder hin.	✔️
Diversity Metrics	Misst die Vielfalt der generierten Bilder.	Unterschiedlichkeit und Variation der generierten Bildinhalte.	Höhere Diversitätswerte zeigen eine größere Vielfalt und weniger Wiederholungen.	❌
Fréchet Video Distance (FVD)	Ähnlich wie FID, aber für Videos; kann auch auf Bildserien angewendet werden.	Qualität und Konsistenz der generierten Bildsequenzen.	Niedrigere FVD-Werte signalisieren eine höhere Qualität und Konsistenz über Sequenzen.	❌

Metriken mit Referenz

Diese Metriken vergleichen das generierte Bild mit einem oder mehreren Referenzbildern, um die Qualität und Ähnlichkeit zu bewerten.

Metrik	Beschreibung	Was wird gemessen	Aussagen	Implementiert im Skript

Metrik	Beschreibung	Was wird gemessen	Aussagen	Implementiert im Skript
Peak Signal-to-Noise Ratio (PSNR)	Misst das Verhältnis zwischen dem maximal möglichen Signal und dem Rauschen, das durch die Bildgenerierung eingeführt wurde.	Ähnlichkeit zwischen dem generierten Bild und dem Referenzbild in Bezug auf Signalstärke und Rauschunterdrückung.	Höhere PSNR-Werte deuten auf eine höhere Bildqualität und geringere Verzerrungen hin.	❌
Structural Similarity Index (SSIM)	Bewertet die visuelle Ähnlichkeit zwischen zwei Bildern unter Berücksichtigung von Helligkeit, Kontrast und Struktur.	Strukturelle Ähnlichkeit und Wahrnehmungsqualität im Vergleich zum Referenzbild.	Höhere SSIM-Werte zeigen eine stärkere strukturelle Übereinstimmung und bessere Wahrnehmungsqualität.	❌
Learned Perceptual Image Patch Similarity (LPIPS)	Verwendet tiefe neuronale Netzwerke, um die wahrgenommene Ähnlichkeit zwischen Bildpaaren zu bewerten.	Wahrgenommene visuelle Ähnlichkeit auf einer höheren, perceptuellen Ebene.	Niedrigere LPIPS-Werte weisen auf eine höhere wahrgenommene Ähnlichkeit hin.	❌
Frechet Inception Distance (FID)	Misst die Distanz zwischen den Verteilungen von generierten und realen Bildern im Merkmalsraum eines neuronalen Netzwerks.	Statistische Ähnlichkeit und Qualität der generierten Bilder im Vergleich zu echten Bildern.	Niedrigere FID-Werte deuten auf eine höhere Qualität und Realitätsnähe hin.	❌

Metriken mit Promptbezug

Diese Metriken bewerten, wie gut das generierte Bild den Vorgaben des Textprompts entspricht.

Metrik	Beschreibung	Was wird gemessen	Aussagen	Implementiert im Skript

Metrik	Beschreibung	Was wird gemessen	Aussagen	Implementiert im Skript
CLIP Score	Verwendet das CLIP-Modell von OpenAI, um die Übereinstimmung zwischen Text und Bild zu bewerten.	Semantische Ähnlichkeit und Relevanz des Bildinhalts zum Textprompt.	Höhere CLIP-Scores deuten darauf hin, dass das generierte Bild besser zum Textprompt passt.	✔️
BLIP Score	Verwendet das BLIP-Modell von Salesforce, um die Übereinstimmung zwischen Text und Bild zu bewerten.	Semantische Ähnlichkeit und Relevanz des Bildinhalts zum Textprompt.	Höhere BLIP-Scores deuten darauf hin, dass das generierte Bild eine stärkere Übereinstimmung mit dem Textprompt aufweist.	✔️
Text-to-Image Alignment Metrics	Bewertet die Genauigkeit, mit der das Bild den im Prompt beschriebenen Elementen entspricht.	Präsenz und korrekte Darstellung von im Prompt genannten Objekten, Szenen und Attributen im Bild.	Höhere Alignment-Werte zeigen eine bessere Übereinstimmung mit den spezifischen Anforderungen.	❌
Semantic Consistency Metrics	Bewertet die semantische Konsistenz zwischen verschiedenen Teilen des Bildes im Kontext des Prompts.	Logische und inhaltliche Kohärenz der Bildelemente in Bezug auf den Textprompt.	Höhere Konsistenzwerte signalisieren eine zusammenhängende und sinnvolle Darstellung der Szene oder Objekte.	❌
Prompt Adherence Score	Eine maßgeschneiderte Metrik, die spezifische Kriterien aus dem Prompt extrahiert und deren Umsetzung im Bild bewertet.	Einhaltung spezifischer Anweisungen und Anforderungen des Prompts, wie Stil, Farben, Objekte und deren Anordnung.	Höhere Adherence Scores bedeuten eine präzisere Umsetzung der Prompt-Anforderungen.	❌