«Liebe KI, bitte wandle meine Zeichnung
in ein fotorealistisches Bild um.»

  Swisscom Campus Newsletter
Erhalten Sie neue Inhalte vom Swisscom Campus direkt in Ihre Mailbox, dank dem Swisscom Campus Newsletter.

8 Minuten

Generative Bild-KIs und Bildgenerierungsmodelle

Ein Bild von einer im Meer surfenden, jubelnden Kuh in fotorealistischer Umsetzung – das war lange Zeit ein Ding der Unmöglichkeit. Heute gehören solche Sujets bereits zum Alltag. Verantwortlich dafür sind generative Bild-KIs und Diffusionsmodelle, die ein Bild einem Prompt gemäss Pixel für Pixel aufbauen können. Auf dieser Seite fragen wir nach bekannten Modellen, schleifen an Bildgenerierung-Prompts und wägen die Chancen und Risiken der generativen Bild-KI gegeneinander ab. 

Folgende Themen finden Sie auf dieser Seite:

Thema

Wie funktionieren Bild-KIs?

Um Bilder zu generieren, stehen einer Künstlichen Intelligenz zwei verschiedene Methoden zur Verfügung: Einerseits Generative Adversarial Networks (GANs) und andererseits Diffusionsmodelle. Doch was verbirgt sich hinter diesen Begriffen?

Generative Adversarial Networks (GANs) waren in den letzten Jahren die führende KI-Bildgenerierungstechnologie. In einem GAN erzeugt ein Bildgenerator, der nach dem Deep Learning Ansatz trainiert wurde, in einem Schritt ein Bild.   

Mit diesem Bildgenerator wurde die GAN-Methode im Jahr 2014 populär: https://thispersondoesnotexist.com/(öffnet ein neues Fenster)

Die Schwäche der GANs liegt darin, dass auch bei unterschiedlicher Ausgangslage zweimal dasselbe Bild generiert werden kann, weil die Technik dies begünstigt. 

Die Diffusionsmodelle verfolgen einen anderen Ansatz als die GANs: 2021 haben Forschende des Unternehmens OpenAI in ihrem Paper «Diffusion Models Beat GANS on Image Synthesis» die Diffusionsmodelle als neue, bessere Technik zur Bildgenerierung vorgeschlagen.  

Der relevante Unterschied im Prozess liegt in den iterativen Schritten der Diffusionsmodelle, durch die Duplikate vermieden werden und eine höhere Detailtreue ermöglicht wird.

Die Diffusionstechnik hat sich heute in allen gängigen Tools zur Bildgenerierung durchgesetzt.

Thema

Was sind die bekanntesten
KI-Bildgeneratoren?

Wie bei der Text-KI gibt es auch bei den KI-Bildgeneratoren immer mehr Angebote. An der qualitativen Spitze stehen nach wie vor Midjourney, Dall-E, Stable Diffusion und Adobe Firefly.

In einem Vergleich zeigen wir Ihnen die unterschiedlichen Qualitäten der vier bekanntesten Bildgeneratoren: Denselben Prompt lassen wir von allen vier Modellen ausführen und vergleichen das Ergebnis.  

Realistic photos, high level of detail. A wooden house on a small lake. A jetty leads out into the lake. A rowing boat is tied to it. It is raining. 

Das Bildgenerierungstool Midjourney wird entweder über die Chat-App Discord bedient oder neuerdings auch direkt auf midjourney.com mit Midjourney Alpha.  

Midjourney überzeugt durch eine hervorragende Qualität und bietet mit den unterschiedlichen Parametern eine hohe Kontrolle bei der Bildgenerierung. Das Tool hat einen eigenen Stil und generiert mit wenig Prompt-Aufwand sehr ansprechende Bilder.

Preise
Ab $8 pro Monat  

Zu Midjourney Alpha: https://alpha.midjourney.com/home(öffnet ein neues Fenster)

Für Fortgeschrittene: Midjourney Parameter(öffnet ein neues Fenster)

Durch die Integration von Dall-E in das das Tool ChatGPT (beide von OpenAI) ist die Nutzung des Bildgenerierungstools sehr einfach. Im Chatformat wird ChatGPT mit der Bildgenerierung beauftragt. Das Sprachmodell verarbeitet die Anfrage und lässt die Aufgabe von Dall-E ausführen. Das so generierte Bild hat eine hohe Qualität und wird direkt im Chatverlauf verfügbar gemacht. Dieses kann auch heruntergeladen werden. 

Was Dall-E durch die Zusammenarbeit mit ChatGPT besonders gut kann: Das Abbilden von Text (zum Beispiel in Sprechblasen oder Beschriftungen).  

Preise: 
Kostenlos in Microsoft Copilot integriert
$23 pro Monat in ChatGPT Plus integriert

Zu Dall-E 3, der neusten Version von Dall-E: https://openai.com/index/dall-e-3/(öffnet ein neues Fenster)

Adobe Firefly ist direkt in Adobe Photoshop integriert. Mit der Funktion «Generative Fill» ermöglicht das Bildbearbeitungsprogramm das Verändern von Teilelementen in einem bestehenden Bild. 

Das Ergebnis der mit Adobe Firefly erstellten Bilder ist sehr realistisch, allerdings zeigt das Tool bei der Gestaltung menschlicher Gesichter seine Schwäche.

Preise: 
Ab $26 pro Monat

Zu Adobe Photoshop Firefly: https://firefly.adobe.com/(öffnet ein neues Fenster)

Stable Diffusion wurde im August 2022 als Bildgenerierungsmodell mit Open-Source-Charakter (für die Allgemeinheit gratis nutzbar und weiterentwickelbar) veröffentlicht und ist daher heute häufig in Tools von Drittparteien wie civitai.com oder leonardo.ai integriert. 

Das Modell ist in der Bedienung komplex und kann sowohl fotorealistische Sujets als auch stilisierte Kunst erzeugen. Dies macht es besonders interessant für Anwendungsfälle wie die Visualisierung von Konzepten oder ähnlichem. Stable Diffusion bietet die höchste Anpassbarkeit aller Bildmodelle und wird darum am meisten in Arbeiten von Gestaltungsprofis und Künstlern verwendet.

Preise: 
Kostenlos (In vielen kostenpflichtigen Tools integriert)

Zu der Webversion von Stable Diffusion: stablediffusionweb.com(öffnet ein neues Fenster)

Thema

Wie prompte ich bessere Bilder?

Damit die generative Künstliche Intelligenz Bilder erzeugt, die Ihren Vorstellungen entsprechen, gilt es beim Prompten bestimmte Dinge zu beachten. Ein guter Prompt gibt Vorgaben zum visuellen Stil, zu konkreten Inhalten sowie zum Seitenverhältnis (je nach Modell).

Achten Sie beim Prompten generell darauf, keine Füllwörter zu verwenden. Die richtige Prompt-Länge ist zentral, denn längere Prompts helfen der KI bei der Umsetzung Ihrer Idee. Bei zu ausführlichen Vorgaben kann sich die KI jedoch verlieren und Elemente visualisieren, die Ihnen vielleicht gar nicht so wichtig sind. 

Recherchieren Sie auch Fachbegriffe aus der visuellen Kunst(öffnet ein neues Fenster), um der KI ganz konkrete Stilvorgaben machen zu können. 

Jede generative KI arbeitet leicht anders. Aber bei allen lohnt es sich, auf diese grundlegenden Dinge zu achten:

Nicht alle Bildgeneratoren verstehen Deutsch. Informieren Sie sich, welche Sprache der gewünschte Bildgenerator spricht und prompten Sie in dieser Sprache.

In welchem Stil soll das Bild umgesetzt werden? Wünschen Sie einen stilisierten Kunststil (zum Beispiel wie die Bilder von Van Gogh) oder ein fotorealistisches Motiv? Geben Sie der KI den entsprechenden Auftrag.

Was genau soll auf dem Bild zu sehen sein? Was befindet sich im Vordergrund, was im Hintergrund? Nennen Sie relevante Motive. 

In welchem Farbschema soll das Bild generiert werden? Wünschen Sie ein Schwarz-Weiss-Bild oder eine farbige Inszenierung? Woher kommt das Licht ins Bild? Welche Stimmung herrscht im Bild? 

Einigen Tools (wie zum Beispiel Midjourney) können Sie Angaben zum Seitenverhältnis machen, zum Beispiel: Portraits im Verhältnis 3:4.

«cute comic style, wide angle, plush elephant shaking hand of a mouse, sunset, warm colors –ar 16:9» 

Thema

Anwendungsbeispiele  der generativen Bild-KI

Während Bildgenerierungsmodelle anfangs primär Bilder aus Text generierten, sind die Anwendungsbereiche generativer Bild-KI inzwischen sehr vielfältig. So können verschiedene Modelle zum Beispiel auch Skizzen in stilisierte Kunst verwandeln oder Teilbereiche eines Fotos neu generieren.

Drei solcher Anwendungsbeispiele für generative Bild-KI finden Sie hier:

Midjourney kann aus einem sprachlichen Prompt ein Bild generieren. Das Bildgenerierungsmodell kann aber auch mit einer Skizze oder Zeichnung als Basis arbeiten und diese in ein Bild im gewünschten Stil umwandeln. 

Eine Zeichnung kann so beispielsweise in eine Visualisierung aus Bastelpapier, in einen Mosaikstil oder in einen Comicstil umgewandelt werden. 

Eine Schritt-für-Schritt-Anleitung, wie Sie mit Hilfe von Midjourney Skizzen oder Zeichnungen in stilisierte Kunstwerke verwandeln können, finden Sie hier(öffnet ein neues Fenster).

Auch bei grafischen Anliegen können Bildgenerierungsmodelle Sie unterstützen. Möchten Sie beispielweise ein Logo für einen Verein oder ein Produkt oder eine Dienstleistung entwerfen? Bildgenerierungsmodelle können Ihnen bei der Ideenfindung helfen.

Mit der Integration von Dall-E in ChatGPT und der damit verbundenen Stärke bei der Darstellung von Text eignet sich Dall-E besonders gut fürs Design-Prototyping von Logos und Co. 

Mit der Funktion «Generative Fill» von Adobe Firefly können Sie bestimmte Elemente eines Bildes neu generieren lassen. Dies eignet sich beispielsweise für Portraits, wenn Sie den Hintergrund neu gestalten lassen möchten. 

Importieren Sie ein Portrait in Adobe Photoshop und wählen Sie alles ausser die Gesichter im Bild an. Nutzen Sie «Generative Fill», formulieren Sie einen Prompt und lassen Sie die Szene rund um die Gesichter neu generieren. 

Thema

Was sind die Chancen und Risiken
der generativen Bild-KI?

Wie alles auf der Welt haben auch generative Bild-KIs Vorteile und Nachteile. Eine Auswahl der wichtigsten Aspekte haben wir hier für Sie zusammengefasst.

Chancen

Generative Bild-KIs bieten ein bisher nicht gekanntes künstlerisches Potenzial für private Projekte. So können eigene Ideen in ansprechender Form visuell abgebildet werden, auch wenn einem selbst vielleicht das gestalterische Talent fehlt. 

Bildgenerierungsmodelle helfen, eigene Ideen umzusetzen, weiterzudenken und inspirieren durch Visualisierungen den kreativen Prozess. 

Möchten Sie eine Grusskarte oder ein Erinnerungsalbum gestalten? Generative Bild-KI kann Sie dabei unterstützen und liefert auf Knopfdruck Visualisierungen gemäss Ihren Wünschen. 

Auch für die Präsentation von Ideen oder bei der Visualisierung von Konzepten ist die generative Bild-KI eine grosse Hilfe. 

Da Bildgenerierungsmodelle auf der Basis Ihrer Prompts arbeiten, entstehen sehr individuelle Designs, die in Ihren persönlichen Vorstellungen entsprechen. Sie brauchen also nicht mehr lange nach Vorlagen zu suchen, die auf Ihre individuellen Vorlieben zugeschnitten sind. 

Risiken

Durch das Training einer KI wird in jedem Fall eine meinungsbildende Grundlage geschaffen, und in vielen Bereichen widerspiegelt es Vorurteile und Stereotypen, die in den Trainingsdaten vorhanden sind. Denn auch wenn beim Training möglichst neutrale Positionen und Meinungen vermittelt werden, ist es nahezu unmöglich, eine KI frei von Vorurteilen und Wertvorstellung zu entwickeln. 

Das Urheberrecht wird im Rahmen der generischen Künstlichen Intelligenz kontrovers diskutiert. Da viele Deep Learning-Modelle auch mit urheberrechtlich geschützten Daten aus dem Internet trainiert werden, stellt sich die Frage: Wem gehören die mittels KI generierten Bilder und wird mit der Bildgenerierung ein Urheberrecht verletzt? 

Mittels generativer Bild-KI können Teile eines Bildes täuschend echt ersetzt oder abgeändert werden. Oder Fotos und Videos können beispielsweise auf der Datenbasis eines Gesichts komplett neu erstellt werden. 

Werden solche Bilder mit der Öffentlichkeit geteilt, besteht die erhöhte Gefahr zur Verbreitung von Fake News. Aber auch das Recht am eigenen Bild wird dabei tangiert. 

Heute sind die von einer Bild-KI generierten Bilder oft noch erkennbar. Das kann sich aber bald ändern, denn die Bildgenerierungsmodelle werden in ihrer Qualität rasant besser.

Dass die Menschheit wegen bildgenerativer Künstlicher Intelligenz plötzlich keine Bildkunst mehr produzieren wird, ist eher unwahrscheinlich. 

Was aber geschehen kann, ist, dass mit der Automatisierung der visuellen Bildgestaltung die Hürde wächst, eine*n Künstler*in zu engagieren. Dies könnte sich negativ auf diese Berufsgruppen auswirken.  

Das Wichtigste in Kürze

  • Die Diffusionsmodelle haben sich in der Funktionsweise von generativen Bild-KIs durchgesetzt. 
  • Midjourney, Dall-E, Stable Diffusion und Adobe Firefly gehören zu den bekanntesten generativen Bild-KIs.
  • Um von den Bildgenerierungsmodellen Ergebnisse zu erhalten, die Ihren Vorstellungen entsprechen, lohnt sich ein strukturierter Aufbau der Prompts.
  • Unterschiedliche Bild-KIs sind auf unterschiedliche Anwendungsgebiete spezialisiert. 
  • Generative Bild-KI bietet Vorteile wie die Förderung von Kreativität und Personalisierung, weist mit den Thematiken Deepfakes oder Urheberrechts aber auch Risiken auf. 

Marcel fragen

Marcel ist Trainer bei Swisscom. Er steht Ihnen bei allen Fragen rund um das Thema KI zur Verfügung.

Portrait des Leiters Jugendmedienschutz Michael In Albon
Marcel

Trainer bei Swisscom