...
GANs (Generative Adversarial Networks): Diese Netzwerke bestehen aus zwei konkurrierenden Modellen – einem Generator, der versucht, realistische Bilder zu erzeugen, und einem Diskriminator, der zwischen echten und generierten Bildern unterscheidet. Durch dieses Zusammenspiel entstehen besonders realistische Bilder.
VAE (Variational Autoencoders): Diese Modelle komprimieren Bilddaten in einen latenten Raum und generieren daraus neue, ähnliche Bilder. Sie sind nützlich für die Datenkompression und die Generierung variantenreicher Bilder.
Diffusionsmodelle: Ein neuer Ansatz zur Bildgenerierung, bei dem ein Bild aus einem „Rauschen“ entsteht, das schrittweise durch das Modell verfeinert wird. Diffusionsmodelle gelten als sehr leistungsfähig für hochauflösende und detailreiche Bilder.
Prompts: Sind Textbeschreibungen oder kommagetrennte Schlagwörter, die das zu erzeugende Bild beschreiben und Hinweise zum Stil und zur Gestaltung geben können.
Negativ-Prompts: Sind Textbeschreibungen oder kommagetrennte Schlagwörter, die beschreiben, was nicht dargestellt werden soll z.B. Text oder Rauschen.
ControlNets basieren auf neuronalen Netzwerken, die zusätzlich zum Hauptmodell trainiert werden. Sie fungieren als eine Art "Leitplanke" für den Generierungsprozess.
Latenter Raum (Latent Space): Eine reduzierte Darstellung von Bilddaten, die KI-Modelle verwenden, um wichtige Merkmale eines Bildes zu speichern und daraus Variationen zu erstellen.
LoRAs (Low-Rank Adaptations): LoRAs sind spezialisierte Erweiterungen bestehender KI-Modelle wie Stable Diffusion. Sie ermöglichen es, spezifische Stile oder Konzepte in die Bildgenerierung zu integrieren, ohne das gesamte Modell neu zu trainieren. Dies spart Ressourcen und Zeit.
CLIP (Contrastive Language–Image Pretraining): Ein KI-Modell, das Texte und Bilder miteinander verknüpfen kann. Es ist besonders nützlich für Text-zu-Bild-Modelle, bei denen ein Bild auf Basis einer textlichen Beschreibung erstellt wird.
Prompt Engineering: Die Technik, Textanfragen („Prompts“) so zu gestalten, dass die KI die bestmöglichen Ergebnisse liefert. Für Bildgeneratoren bedeutet dies, detaillierte Beschreibungen zu formulieren, die das gewünschte Bild möglichst genau beschreiben.
Neural Radiance Fields (NeRFs): Eine Methode zur 3D-Bildgenerierung, die Ansichten eines Objekts aus verschiedenen Perspektiven erstellt und ein 3D-Modell generiert.
Segmentierung (Segmentation): Eine Technik zur Unterteilung eines Bildes in verschiedene Bereiche oder Objekte, die KI-Modelle verwenden, um bestimmte Bildteile gezielt zu bearbeiten oder zu erzeugen.
Style Transfer: Mit dieser Technik wird der Stil eines Bildes auf ein anderes übertragen, zum Beispiel der eines Gemäldes auf ein Foto.
Image-to-Image Translation: Diese Methode übersetzt ein Bild in ein anderes, etwa von Schwarz-Weiß zu Farbe.
Steps (Schritte): bezieht sich auf die Anzahl der Iterationen, die ein KI-Modell während des Bildgenerierungsprozesses durchläuft. Jeder Schritt verfeinert das Bild weiter, indem Rauschen reduziert und Details hinzugefügt werden. Eine höhere Anzahl von Schritten kann zu detaillierteren und realistischeren Bildern führen, erhöht jedoch auch die Rechenzeit. Neuere Modelle versuchen auch mit einer geringeren Anzahl an Schritten gute Ergebnisse zu erzielen und schneller zu arbeiten.
Super Resolution: KI-Algorithmen erhöhen die Auflösung von Bildern und machen sie detailreicher.
Image Inpainting: Diese Technik füllt fehlende oder beschädigte Bereiche in Bildern realistisch auf.
Multimodale KI: Multimodale KI kann verschiedene Datentypen wie Text, Bild und Ton kombinieren und miteinander verarbeiten, um vielseitigere Anwendungen zu ermöglichen.
...
Prompt-Erstellung für Text zu Bild Generatoren
In Arbeit …
Quellen
...
Herangehensweise
Klare Zielsetzung definieren: Überlegen Sie zunächst, welches Bild Sie erzeugen möchten. Berücksichtigen Sie dabei den Verwendungszweck, die Zielgruppe und die gewünschte Botschaft des Bildes. Eine genaue Vorstellung erleichtert die präzise Formulierung des Prompts.
Detaillierte Beschreibung des Motivs: Beschreiben Sie das Hauptmotiv des Bildes so genau wie möglich. Statt allgemeiner Begriffe wie "Hund" verwenden Sie spezifische Beschreibungen wie "ein brauner Labrador, der im Park spielt".
Festlegung des Kontextes und der Umgebung: Geben Sie an, in welchem Umfeld das Hauptmotiv dargestellt werden soll. Beispielsweise: "ein brauner Labrador, der im Park spielt, umgeben von blühenden Kirschbäumen".
Bestimmung des Stils und der Stimmung: Definieren Sie den gewünschten künstlerischen Stil und die Atmosphäre des Bildes. Beispielsweise: "im impressionistischen Stil mit einer fröhlichen, lebhaften Stimmung".
Verwendung spezifischer Adjektive und Details: Nutzen Sie beschreibende Adjektive, um Farben, Texturen und weitere Details zu spezifizieren. Beispielsweise: "ein lebhaftes, farbenfrohes Gemälde einer fröhlichen Menschenmenge auf einem belebten Marktplatz".
Angabe technischer Spezifikationen: Falls relevant, können Sie technische Details wie Auflösung, Seitenverhältnis oder Beleuchtung angeben. Beispielsweise: "hochauflösendes Bild im Querformat mit natürlicher Beleuchtung".
Iteratives Testen und Anpassen: Nach der Generierung des Bildes sollten Sie das Ergebnis überprüfen und den Prompt bei Bedarf anpassen, um das gewünschte Resultat zu erzielen. Dieser iterative Prozess hilft, die Genauigkeit und Qualität der generierten Bilder zu verbessern.
Grundlegende Elemente des Prompts
Bildtyp: Bestimmen Sie die Art des gewünschten Bildes, z. B. Foto, Illustration, 3D-Rendering oder Gemälde. Diese Angabe hilft der KI, den passenden Stil und die Technik zu wählen.
Hauptmotiv: Beschreiben Sie das zentrale Element des Bildes detailliert. Statt allgemeiner Begriffe wie "Hund" verwenden Sie spezifische Beschreibungen wie "ein brauner Labrador, der im Park spielt".
Umgebung/Szenerie: Geben Sie den Kontext oder Hintergrund des Hauptmotivs an, z. B. "in einem nebligen Wald bei Sonnenaufgang". Dies verleiht dem Bild Tiefe und Atmosphäre.
Stimmung/Atmosphäre: Definieren Sie die gewünschte emotionale Wirkung des Bildes, z. B. "mit düsterer Stimmung" oder "fröhlich und lebhaft". Diese Angabe beeinflusst die Farbgebung und Beleuchtung.
Farbpalette: Spezifizieren Sie die dominanten Farben oder das Farbschema, z. B. "warme Erdtöne" oder "pastellfarbene Nuancen". Dies hilft der KI, die visuelle Ästhetik des Bildes zu gestalten.
Beleuchtung: Beschreiben Sie die Lichtverhältnisse, z. B. "sanftes natürliches Licht des späten Nachmittags" oder "dramatische Schatten bei Nachtbeleuchtung". Die Beleuchtung beeinflusst die Stimmung und den Fokus des Bildes.
Perspektive/Blickwinkel: Geben Sie den gewünschten Blickwinkel oder die Kameraposition an, z. B. "Vogelperspektive" oder "extreme Nahaufnahme". Dies bestimmt, wie das Hauptmotiv im Bild dargestellt wird.
Detailgrad: Bestimmen Sie den gewünschten Detaillierungsgrad, z. B. "hyperrealistisch" oder "abstrakt". Dies beeinflusst die Komplexität und Feinheit der Bilddetails.
Komposition: Beschreiben Sie die Anordnung und Balance der Bildelemente, z. B. "symmetrische Komposition" oder "nach dem goldenen Schnitt". Eine durchdachte Komposition führt zu einem harmonischen Bildaufbau.
Styles
Künstlerische Stile:
Impressionismus: Betont Licht und Farbe mit weichen, flüchtigen Pinselstrichen.
Kubismus: Zerlegt Motive in geometrische Formen und zeigt mehrere Perspektiven gleichzeitig.
Surrealismus: Verbindet realistische Details mit fantastischen, traumähnlichen Szenen.
Pop-Art: Nutzt kräftige Farben und klare Linien, oft inspiriert von Massenmedien und Popkultur.
Fotografische Stile:
Schwarz-Weiß-Fotografie: Fokus auf Kontraste und Texturen ohne Farbe.
Makrofotografie: Detailreiche Nahaufnahmen kleiner Objekte.
Langzeitbelichtung: Erzeugt Bewegungsunschärfe und Lichtspuren.
Vintage-Fotografie: Verleiht Bildern einen nostalgischen, gealterten Look.
Designstile:
Minimalismus: Verwendet einfache Formen und eine reduzierte Farbpalette.
Art déco: Charakterisiert durch geometrische Muster und luxuriöse Details.
Steampunk: Kombiniert viktorianische Ästhetik mit mechanischen Elementen.
Cyberpunk: Fokus auf futuristische, dystopische Szenarien mit Neonlichtern.
Medienstile:
Anime: Japanischer Animationsstil mit charakteristischen Figuren und Hintergründen.
Comicstil: Verwendet kräftige Linien und oft übertriebene Proportionen.
Aquarell: Erzeugt weiche, fließende Farbverläufe und Transparenzen.
...
Eine gute Demonstration zur Umsetzung von Styles findet man bei Fooocus: https://docs.google.com/spreadsheets/d/1qtpG06Oxvl6ZtKb9F4_p4qNJxNaUW8TXaxC6LrFa9yM/edit?gid=2125777153#gid=2125777153
Zusätzliche Tipps für die Prompt-Optimierung
Spezifische Adjektive: Verwenden von klaren Adjektiven zur Beschreibung (z. B. hell, rund, glatt).
Experimentieren mit Formulierungen: Verschiedene Satzstellungen und Wortwahl ausprobieren.
Negative Prompts: Begriffe, die explizit ausgeschlossen werden sollen (z. B. „kein Text“).
Gewichtungen und Iterationen: Anpassung der Wichtigkeit einzelner Begriffe und schrittweises Verfeinern basierend auf den Ergebnissen.
Sprache: Es empfiehlt sich den Prompt in die englische Sprache zu übersetzen, da die meisten Modelle mit mehr englisch-sprachigen Quellen trainiert wurden.
Bildgröße: Beachten Sie die empfohlene Bildgröße der Modelle. In der Regel mind. 512 x 512. Darunter können Qualitätsverluste auftreten. Quadratisches Formate werden z.T. bevorzugt.
CFG-Scale (Classifier Guidance Scale): Regelt, wie strikt das Modell den Prompt befolgt. (nicht bei allen Modellen verfügbar)
1 = Prompt wird fast ignoriert.
7 = Gleichgewicht zwischen Einhaltung und kreativer Freiheit.
30 = Strikte Einhaltung des Prompts.
Sampling-Steps: Mehr Schritte erhöhen die Bildqualität. Empfehlung: 20 Schritte mit Euler-Sampler.
Batch-Größe: Mehrere Bilder (4 oder 8) gleichzeitig generieren, um verschiedene Varianten zu erhalten.
Quellen
[ 1 ] https://www.e-teaching.org/didaktik/gestaltung/visualisierung/abstrakt/schaubild
[ 3 ] https://www.e-teaching.org/didaktik/gestaltung/visualisierung/abstrakt/schaubild[ 2 .die-bonn.de/doks/2018-visualisierung-01.pdf
[ 4 ] https://de.wikipedia.org/wiki/Vorschaubild
[ 5 ] https://de.wikipedia.org/wiki/Kognitive_Theorie_des_multimedialen_Lernens
[ 6 ] https://wwwlink.shiftelearningspringer.com/blogchapter/bid/321598/picture-perfect-a-guide-to-choosing-images-for-elearning
[ 3 ] https://www.die-bonn.de/doks/2018-visualisierung-01.pdf
[ 4 10.1007/978-3-662-54368-9_4
[ 7 ] https://de.wikipedia.org/wiki/Vorschaubild[ 5 wirkungswerk.de/glossary/dual-coding-theorie/
[ 8 ]https://deblogs.wikipedia.org/wiki/Kognitive_Theorie_des_multimedialen_Lernens[ 6 articulate.com/e-learning-einfach-gemacht/das-redundanzprinzip-sollte-man-sprechertext-auch-als-bildschirmtext-anzeigen/
[ 9 ] https://linkblogs.springerarticulate.com/chapter/10.1007/978-3-662-54368-9_4[ 7 e-learning-einfach-gemacht/kohaerenz-zwischen-text-und-grafiken-im-e-learning-weniger-ist-manchmal-mehr/
[ 10 ] https://wirkungswerkblogs.articulate.de/glossary/dual-coding-theoriecom/e-learning-einfach-gemacht/das-kontiguitaetsprinzip-zusammengehoerigkeit-von-text-und-bild/
[ 8 11 ] https://blogs.articulate.com/e-learning-einfach-gemacht/daspersonalisierungsprinzip-redundanzprinzipso-solltesprechen-mansie-sprechertextihre-auchlernenden-alsdirekter-bildschirmtext-anzeigenan/
[ 9 12 ] https://blogs.articulate.com/e-learning-einfach-gemacht/kohaerenzdas-zwischenmultimodalitaetsprinzip-text-mit-undpassenden-grafiken-bringt-im-e-learning-weniger-ist-manchmal-mehr/[ 10 mehr-lernerfolg/
[ 13 ] https://www.e-teaching.org/didaktik/gestaltung/visualisierung
[ 14 ] https://blogswww.articulategolem.comde/news/ekuenstliche-learningintelligenz-einfachso-gemacht/dasfunktionieren-kontiguitaetsprinzipki-zusammengehoerigkeitbildgeneratoren-von-text-und-bild/2305-174436.html
[ 11 15 ] https://blogs.articulate.com/e-learning-einfach-gemacht/personalisierungsprinzip-so-sprechen-sie-ihre-lernenden-direkter-an/[ 12 www.pcwelt.de/article/2412094/die-7-besten-ki-bildgeneratoren-vergleichstest.html
[ 16 ] https://blogs.articulate.com/e-learning-einfach-gemacht/das-multimodalitaetsprinzip-text-mit-passenden-grafiken-bringt-mehr-lernerfolg/[ 13 t3n.de/news/bild-ki-flux-dall-e-stable-diffusion-midjourney-alt-1642176/
[ 17 ] https://www.efokus-teaching.org/didaktik/gestaltung/visualisierung
[ 15 ki.de/ki-tipps-know-how/prompts-fuer-bilder-so-gelingt-das-perfekte-ki-bild/
[ 18 ] https://www.pcweltadesso.de/de/articlenews/2412094blog/diestable-7diffusion-besten-ki-bildgeneratoren-vergleichstest.htmleine-einfuehrung.jsp
[ 16 19 ] https://t3n.de/news/bild-ki-flux-dall-e-stable-diffusion-midjourney-alt-1642176/docs.google.com/spreadsheets/d/1qtpG06Oxvl6ZtKb9F4_p4qNJxNaUW8TXaxC6LrFa9yM/edit?gid=2125777153#gid=2125777153