...
GANs (Generative Adversarial Networks): Diese Netzwerke bestehen aus zwei konkurrierenden Modellen – einem Generator, der versucht, realistische Bilder zu erzeugen, und einem Diskriminator, der zwischen echten und generierten Bildern unterscheidet. Durch dieses Zusammenspiel entstehen besonders realistische Bilder.
VAE (Variational Autoencoders): Diese Modelle komprimieren Bilddaten in einen latenten Raum und generieren daraus neue, ähnliche Bilder. Sie sind nützlich für die Datenkompression und die Generierung variantenreicher Bilder.
Diffusionsmodelle: Ein neuer Ansatz zur Bildgenerierung, bei dem ein Bild aus einem „Rauschen“ entsteht, das schrittweise durch das Modell verfeinert wird. Diffusionsmodelle gelten als sehr leistungsfähig für hochauflösende und detailreiche Bilder.
ControlNets basieren auf neuronalen Netzwerken, die zusätzlich zum Hauptmodell trainiert werden. Sie fungieren als eine Art "Leitplanke" für den Generierungsprozess.
Latenter Raum (Latent Space): Eine reduzierte Darstellung von Bilddaten, die KI-Modelle verwenden, um wichtige Merkmale eines Bildes zu speichern und daraus Variationen zu erstellen.
LoRAs (Low-Rank Adaptations): LoRAs sind spezialisierte Erweiterungen bestehender KI-Modelle wie Stable Diffusion. Sie ermöglichen es, spezifische Stile oder Konzepte in die Bildgenerierung zu integrieren, ohne das gesamte Modell neu zu trainieren. Dies spart Ressourcen und Zeit.
CLIP (Contrastive Language–Image Pretraining): Ein KI-Modell, das Texte und Bilder miteinander verknüpfen kann. Es ist besonders nützlich für Text-zu-Bild-Modelle, bei denen ein Bild auf Basis einer textlichen Beschreibung erstellt wird.
Prompt Engineering: Die Technik, Textanfragen („Prompts“) so zu gestalten, dass die KI die bestmöglichen Ergebnisse liefert. Für Bildgeneratoren bedeutet dies, detaillierte Beschreibungen zu formulieren, die das gewünschte Bild möglichst genau beschreiben.
Neural Radiance Fields (NeRFs): Eine Methode zur 3D-Bildgenerierung, die Ansichten eines Objekts aus verschiedenen Perspektiven erstellt und ein 3D-Modell generiert.
Segmentierung (Segmentation): Eine Technik zur Unterteilung eines Bildes in verschiedene Bereiche oder Objekte, die KI-Modelle verwenden, um bestimmte Bildteile gezielt zu bearbeiten oder zu erzeugen.
Style Transfer: Mit dieser Technik wird der Stil eines Bildes auf ein anderes übertragen, zum Beispiel der eines Gemäldes auf ein Foto.
Image-to-Image Translation: Diese Methode übersetzt ein Bild in ein anderes, etwa von Schwarz-Weiß zu Farbe.
Steps (Schritte): bezieht sich auf die Anzahl der Iterationen, die ein KI-Modell während des Bildgenerierungsprozesses durchläuft. Jeder Schritt verfeinert das Bild weiter, indem Rauschen reduziert und Details hinzugefügt werden. Eine höhere Anzahl von Schritten kann zu detaillierteren und realistischeren Bildern führen, erhöht jedoch auch die Rechenzeit. Neuere Modelle versuchen auch mit einer geringeren Anzahl an Schritten gute Ergebnisse zu erzielen und schneller zu arbeiten.
Super Resolution: KI-Algorithmen erhöhen die Auflösung von Bildern und machen sie detailreicher.
Image Inpainting: Diese Technik füllt fehlende oder beschädigte Bereiche in Bildern realistisch auf.
Multimodale KI: Multimodale KI kann verschiedene Datentypen wie Text, Bild und Ton kombinieren und miteinander verarbeiten, um vielseitigere Anwendungen zu ermöglichen.
...
Tools und Scripte für Text zu Bildgeneratoren
Siehe Tools
Prompt-Erstellung für Text zu Bild Generatoren
In Arbeit …
Quellen
[ 1 ] https://www.e-teaching.org/didaktik/gestaltung/visualisierung/abstrakt/schaubild
...