«Liebe KI, bitte wandle meine Zeichnung
in ein fotorealistisches Bild um.»

Swisscom Campus Newsletter
Erhalten Sie neue Inhalte vom Swisscom Campus direkt in Ihre Mailbox, dank dem Swisscom Campus Newsletter.

16 Minuten

Generative Bild-KIs und Bildgenerierungsmodelle

Ein Bild von einer im Meer surfenden, jubelnden Kuh in fotorealistischer Umsetzung – das war lange Zeit ein Ding der Unmöglichkeit. Heute gehören solche Sujets bereits zum Alltag. Verantwortlich dafür sind generative Bild-KIs und Diffusionsmodelle, die ein Bild einem Prompt gemäss Pixel für Pixel aufbauen können. Auf dieser Seite fragen wir nach bekannten Modellen, sprechen über nützliche Anwendungsfälle und darüber, wie man KI-generierte von echten Bildern unterscheiden kann.

Direkt zum Thema

Wie funktionieren Bild-KIs?

Was sind die bekanntesten KI-Bildgeneratoren?

Multimodale Modelle: im Dialog gestalten

Wie prompte ich bessere Bilder?

Anwendungsbeispiele für den Alltag

Wie erkenne ich KI-generierte Bilder?

Was sind die Chancen und Grenzen in der Bildung?

Weiterführende Inhalte

Weitere interessante Themen

Seite teilen

Folgende Themen finden Sie auf dieser Seite:

Um zu erläutern, wie eine Bild-KI funktioniert, stellen wir Ihnen zwei Methoden zur Bildgenerierung vor.
Wir fragen nach den vier bekanntesten KI-Bildgeneratoren und vergleichen diese mit der Ausführung eines Prompts.
Wir zeigen dir nützliche Anwendungsbeispiele einer bildgenerierenden KI für den Alltag.
Und wir thematisieren die Bild-KI rund um die Bildung.

Wie funktionieren Bild-KIs?

Thema

Wie funktionieren Bild-KIs?

Um Bilder zu generieren, stehen einer Künstlichen Intelligenz zwei verschiedene Methoden zur Verfügung: Einerseits Generative Adversarial Networks (GANs) und andererseits Diffusionsmodelle. Doch was verbirgt sich hinter diesen Begriffen?

GANs

Diffusionsmodelle

KI-generierte Bilder und das Urheberrecht: Was du wissen solltest

Wenn Bilder mit Hilfe von KI erstellt werden, ist die rechtliche Situation spannend: Derzeit sind sie in der Schweiz grundsätzlich nicht urheberrechtlich geschützt, was ihre Verwendung flexibel macht. Dennoch müssen Marken- und Persönlichkeitsrechte berücksichtigt werden. Die rasanten Entwicklungen in der Technologie könnten zukünftig Änderungen im Urheberrecht mit sich bringen. Bleib informiert, um auf dem neuesten Stand zu bleiben.

Mehr erfahren

Thema

Was sind die bekanntesten
KI-Bildgeneratoren?

Wie bei der Text-KI gibt es auch bei den KI-Bildgeneratoren immer mehr Modelle. An der qualitativen Spitze stehen aktuell GPT-4o und Midjourney.

GPT-4o (OpenAI) 

Das «o» in GPT-4o steht für «omni» und beschreibt das Modell von OpenAI als multimodal. Es kann also nativ (das heisst von sich aus) Text, Bild und Audio verarbeiten. GPT-4o kann Bilder generieren, diese aber auch analysieren oder darüber sprechen. Das ist besonders dienlich bei Aufgaben, die beides erfordern (wie etwa beim Erstellen einer Präsentation). GPT-4o läuft seit März 2025 als Standard-Bildgenerator in ChatGPT. Davor wurde für die Bildgenerierung seit 2023 das Diffusionsmodell DALL·E (ebenfalls von OpenAI) eingesetzt.

Altersfreigabe (GPT-4o)

Ab 13 Jahren empfohlen

Zugang (GPT-4o)

Web, mobile App, API für Entwickler*innen

Stärken  (GPT-4o)

Verarbeitet als multimodales Modell Text, Bild und Audio (mit der Integration von Sora zudem Video).
Nahtlose Übergänge zwischen Medientypen möglich.
Kann Bilder generieren, analysieren und im Dialog weiterentwickeln.

Schwächen (GPT-4o) 

Begrenzte Anzahl Bilder pro Tag (in kostenloser Version).
Wenig künstlerische Freiheit beim Kreieren von Bildern.
Kann bestehende Bilder nur eingeschränkt (im Dialog) bearbeiten.

Sicherheit  (GPT-4o)

Gespräche werden standardmässig gespeichert.
Daten werden standardmässig fürs Training genutzt (kann widersprochen werden).
Strenge Inhaltsrichtlinien, die verhindern sollen, dass das Modell für böswillige Zwecke eingesetzt wird.

Bildungswert  (GPT-4o)

Ideal um Übungsblätter oder Illustrationen zum Unterrichtsmaterial zu erstellen.
Kann Konzepte mit Grafiken visuell unterstützen oder erklären.
Niederschwelliger Einstieg für Lehrpersonen und Schüler*innen.

Einordnung  (GPT-4o)

Allrounder für Familien und Schulen.
Wenig geeignet für professionelle Kunstprojekte.
Geeignet zur Erstellung von Text-Bild-Kombinationen.

GPT-4o ausprobieren: https://chat.openai.com/ (öffnet ein neues Fenster)

Midjourney 

Midjourney ist eine rein auf die Bildgenerierung spezialisierte generative KI – und das kann sie darum auch richtig gut: Die KI ist für ihre hochwertigen und oft surrealen Bilder weitaus bekannt. Die verfügbaren Parameter bieten bei der Erstellung viele Möglichkeiten, das Bild zu beeinflussen und weiterzuentwickeln. Auch der Community-Faktor spielt bei Midjourney eine Rolle.

Altersfreigabe (Midjourney)

Ab 13 Jahren

Zugang (Midjourney)

via Discord oder Midjourney Alpha

Stärken (Midjourney)

Hohe Bildqualität und künstlerische Freiheit.
Setzt Portraits und auch komplexe Kompositionen gut um.
Inspiration durch aktive Community.

Schwächen  (Midjourney)

Primär über Discord nutzbar, kann umständlich sein für Einsteiger*innen.
Keine kostenlose Version verfügbar.
Die Prompt-Parameter zu verstehen erfordert Effort bei der Einarbeitung.

Sicherheit  (Midjourney)

Generierte Bilder werden (je nach Abo) öffentlich angezeigt.
Konfrontation mit ungeeigneten Inhalten möglich (moderate Inhaltsfilter und Community-Moderation nicht immer verlässlich).
Discord-Umgebung kann ablenken.

Bildungswert  (Midjourney)

Zeigt und integriert verschiedene Kunststile oder Epochen.
Lehrt u.a. die Komposition in der Anwendung und fördert damit auch das visuelle Denken.
Wenig geeignet zur Erstellung von Lernmaterialien.

Einordnung  (Midjourney)

Beste Wahl für künstlerische Projekte.
Erfordert Ausdauer bei der Einarbeitung, liefert am Ende aber dafür kreative und hochwertige Bilder.
Premium-Tool für ambitionierte Künstler*innen.

Midjourney ausprobieren (Discord oder Google Konto erforderlich): https://midjourney.com/home(öffnet ein neues Fenster)

Für Fortgeschrittene: Midjourney Parameter(öffnet ein neues Fenster)

Canva AI (Magic Studio)

Adobe Firefly

Stable Diffusion

Wie unterscheiden sich die bekanntesten Bildgeneratoren in der Qualität, wenn sie denselben Prompt ausführen?

«cute comic style, wide angle, plush elephant shaking hand of a mouse, sunset, warm colors –ar 16:9»

Ein KI-generiertes Bild von einem rothaarigen Kind, dass ein Eis isst. Generiert durch Midjourney Version 2.

Generiertes Bild von GPT-4o (OpenAI).

Thema

Multimodale Modelle: im Dialog gestalten

Die nächste Generation der KI-Bildgeneratoren funktioniert leicht anders als die Vorgänger: Statt nur Text zu verstehen, können multimodale «Omni»-Modelle wie GPT-4o gleichermassen Text, Bild und Audio verarbeiten. Das klingt nach Multitasking – und ist es auch. Aber nur für die KI, für dich wird die Nutzung damit einfacher und natürlicher.

Multimodale KI geht über Text und Bilder hinaus.

Das bedeutet für deine Prompts:

Herkömmliche Bildmodelle

Du schreibst einen Text-Prompt (z.B. «Ein roter Apfel auf einem Tisch» und lässt die KI ein Bild generieren.

Multimodale Modelle

Du kannst auch ein Bild von einem roten Apfel auf einem Tisch hochladen und die KI anweisen: «Mach den Apfel blau und füge eine Banane hinzu» oder «Erstelle eine ähnliche Szene, aber im Winter».

Mit multimodalen Modellen ist es einfacher geworden, mit einem Beispiel und im Dialog mit der KI an deinem Wunschbild zu schleifen. Im Gegensatz zu reinen Bildgeneratoren wie DALL·E können multimodale Modelle wie GPT-4o sich an den Chatverlauf und frühere Bildversionen erinnern und so das Bild iterativ und gemeinsam mit dir bearbeiten. Stelle dir die Bild-KI wie eine persönliche Designerin vor, der du über die Schulter schaust und dich währenddessen mit ihr austauschst. Nutze die Dialogfunktion, wenn du Fragen zur Bildbearbeitung hast, um dir Alternativen zeigen zu lassen oder gib konkretes Feedback zu den Ergebnissen (das gefällt mir, jenes aber nicht).

Ein kleiner Wermutstropfen: Die multimodalen Modelle stecken zurzeit noch in den Kinderschuhen und sind in der Ausarbeitung manchmal noch nicht ganz ausgereift. Es kann darum passieren, dass die KI Teile des ursprünglichen Bildes vergisst oder nicht alle Bilddetails sich im Gespräch steuern lassen.

Thema

Wie prompte ich bessere Bilder?

Ein guter Prompt gibt Vorgaben zum visuellen Stil, zu konkreten Inhalten sowie zum Seitenverhältnis (je nach Modell). Worauf du dich sonst noch achten kannst, damit die KI jene Bilder generiert, die du dir vorstellst, verraten wir dir hier.

Ein paar Grundsätze vorab: Achte beim Prompten darauf, keine Füllwörter zu verwenden. Die richtige Prompt-Länge ist zentral, denn längere Prompts helfen der KI bei der Umsetzung deiner Idee. Bei zu ausführlichen Vorgaben kann sich die KI jedoch auch verlieren und Elemente visualisieren, die dir vielleicht gar nicht so wichtig sind. 

Recherchiere auch Fachbegriffe aus der visuellen Kunst(öffnet ein neues Fenster), um der KI ganz konkrete Stilvorgaben machen zu können. 

Jede generative KI arbeitet leicht anders. Aber bei allen lohnt es sich, auf diese grundlegenden Dinge zu achten:

Sprache

Visueller Stil

Inhalt

Farbschema und Atmosphäre

Seitenverhältnis

Thema

Anwendungsbeispiele für den Alltag

Die KI-Bildgenerierung kann mehr als «nur» den künstlerischen Selbstausdruck fördern. Sie kann dir auch im Familienalltag oder im Schulkontext behilflich sein. Von der Zimmergestaltung bis zum Geschichtsunterricht –  die Möglichkeiten sind vielfältiger, als du vielleicht denkst.

Weihnachtskarte mit KI erstellen.

Für Familien

Geschichten personalisieren

Wohnungseinrichtung neu denken

Einladungen oder Karten gestalten

Für den Schulkontext

Geschichte lebendig gestalten

Biologie in Zoom und Zeitraffer

Lernbilder statt Wortkarten

Kernkompetenz KI-Bilder erkennen

Für die Arbeit

Gestaltungsansätze entwerfen

Content Marketing und Kampagnen

Präsentationen generieren

Hinweise für den professionellen Einsatz

Wenn du KI-generierte Inhalte für kommerzielle Zwecke nutzen willst, informiere dich vorab über die Nutzungsrechte und Datenschutzbedingungen der Modelle. Kennzeichne KI-generierte Inhalte aus ethischen und rechtlichen Gründen transparent als solche. Beachte natürlich auch allfällige Corporate Design-Richtlinien. Und betrachte KI als Ergänzung, aber nicht als Ersatz für menschliche Fähigkeiten und Kreativität.

Thema

Wie erkenne ich KI-generierte Bilder?

Dass du KI-generierte Bilder erkennen kannst, wird zu einer wichtigen Medienkompetenz. Hier zeigen wir dir, worauf du achten und was du tun kannst, wenn du dir mal unsicher bist. Mit etwas Übung entwickelst du ein gutes Gespür. Bleibe dennoch immer aufmerksam, denn die Technologien werden täglich besser.

Was bei der Erkennung von Video-Deepfakes gilt, hilft meist auch, um KI-generierte Bilder zu entlarven. Einfach ist es deswegen aber noch lange nicht. Selbst Expert*innen liegen manchmal daneben. Wenn du dir also mal unsicher bist, ist das völlig normal. Wichtig ist, dass du kritisch bleibst und bei Unsicherheit nachforschst.

Erkennungsmerkmale von KI-Bildern können sein

Hände und Finger

Gesichter und Augen

Text und Schrift

Hintergründe und Schatten

Rückwärtssuche

Wasserzeichen

Grundsätzlich gilt: Verlasse dich nicht auf ein Merkmal, sondern prüfe lieber mehrere Aspekte. Bleibe besonders bei perfekten Bildern skeptisch.

Deepfakes und die Gefahren generativer KI

Deepfakes gibt es neben Videos natürlich auch in der Form von Bildern. Etwa wenn Bildelemente mittels generativer KI ausgetauscht werden, sodass sich die Botschaft verändert, das Bild aber immer noch täuschend echt aussieht. Bei Bildern ist zusätzlich das Urheberrecht ein kontrovers diskutiertes Thema.

Welche Gefahren birgt generative KI?

Thema

Was sind die Chancen und Grenzen in der Bildung?

Als Lehrperson stehst du vor der Frage: Soll ich Bild-KI zur Vorbereitung oder im Unterricht nutzen – und wenn ja, wie? Wie so oft gilt auch hier: Klar, nutze die Chancen der neuen Technologien, aber sei dir auch der Grenzen und Risiken bewusst. Damit kannst du deine eigenen Entscheidungen treffen und die Medienkompetenz in deiner Klasse bewusst mitgestalten.

Chancen

Unterrichtsmaterial veranschaulichen

Sprachbarrieren überwinden

Grenzen

Faktencheck ist Pflicht

Hat die Vorstellungskraft ausgedient?

Webinar für Lehrpersonen: KI-Bildgeneratoren verstehen und einsetzen

Im Kurs lernen Lehrpersonen KI-Bildgeneratoren kennen und erfahren, was im Hintergrund geschieht, sobald die Prompts abgeschickt werden. Wir thematisieren, wo und wie sich die Bildgeneratoren für den Unterricht eignen und wie Realität, Manipulation und Verantwortung rund um die Bildgenerierung im Unterricht thematisiert werden können. Das 90-minütige Webinar ist in Zusammenarbeit mit LerNetz entstanden.

Informationen zum Kurs(öffnet ein neues Fenster)

Das Wichtigste in Kürze

Die Diffusionsmodelle haben sich in der Funktionsweise von generativen Bild-KIs durchgesetzt. 
GPT-4o und Midjourney gehören zu den aktuell bekanntesten generativen Bild-KIs.
Um von den Bildgenerierungsmodellen Ergebnisse zu erhalten, die deinen Vorstellungen entsprechen, lohnt sich ein strukturierter Aufbau der Prompts.
Eine Bild-KI kann vielfältige visuelle Hilfeleistungen im Alltag bieten.

Nützliche Links

Weiterführende Inhalte

Weitere Informationen und Inhalte zum Thema «Bild-KIs und Bildgeneratoren» haben wir hier zusammengetragen.

Nützliche Links

Update: Adobe Firefly ist jetzt kommerziell verfügbar(öffnet ein neues Fenster)

Digitalrat präsentiert KI-Bildgenerator für Schweizer KMUs(öffnet ein neues Fenster)

Gefälschte Bilder: Warnungen sind schädlicher als Fälschungen(öffnet ein neues Fenster)

Wie schwierig ist es, KI-Bilder zu entlarven?(öffnet ein neues Fenster)

Wenn der Computer die Kunstfälschung entlarvt(öffnet ein neues Fenster)

Künstliche Intelligenz soll manipulierte Bilder aufspüren(öffnet ein neues Fenster)

Google integriert seinen Dall-E-Rivalen in die Suchmaschine(öffnet ein neues Fenster)

Urheberrecht und KI: Enabler oder Spielverderber?(öffnet ein neues Fenster)

Vorstellung der 4o-Bildgenerierung(öffnet ein neues Fenster)

Neueste Updates vom Bildgenerator Midjourney(öffnet ein neues Fenster)

Weitere interessante Themen

Leitfaden künstliche Intelligenz

Und schon ist sie da, die Zukunft.

zu den Inhalten

Generative Text-KIs und Sprachmodelle

«Liebe KI, bitte schreib mir meine Bewerbung.»
Tipps: Wie kann ich besser prompten?

zu den Inhalten

Swisscom Campus

Förderung der Medienkompetenz für die Schweizer Bevölkerung

zu den Inhalten

Marcel fragen

Marcel ist Trainer bei Swisscom. Er steht Ihnen bei allen Fragen rund um das Thema KI zur Verfügung.

Portrait des Leiters Jugendmedienschutz Michael In Albon

Marcel

Trainer bei Swisscom

«Liebe KI, bitte wandle meine Zeichnung in ein fotorealistisches Bild um.»

Generative Bild-KIs und Bildgenerierungsmodelle

Folgende Themen finden Sie auf dieser Seite:

Thema

Wie funktionieren Bild-KIs?

GANs

Diffusionsmodelle

KI-generierte Bilder und das Urheberrecht: Was du wissen solltest

Thema

Was sind die bekanntesten KI-Bildgeneratoren?

GPT-4o (OpenAI)

Altersfreigabe (GPT-4o)

Zugang (GPT-4o)

Stärken (GPT-4o)

Schwächen (GPT-4o)

Sicherheit (GPT-4o)

Bildungswert (GPT-4o)

Einordnung (GPT-4o)

Midjourney

Altersfreigabe (Midjourney)

Zugang (Midjourney)

Stärken (Midjourney)

Schwächen (Midjourney)

Sicherheit (Midjourney)

Bildungswert (Midjourney)

Einordnung (Midjourney)

Canva AI (Magic Studio)

Altersfreigabe (Canva AI)

Zugang (Canva AI)

Stärken (Canva AI)

Schwächen (Canva AI)

Sicherheit (Canva AI)

Bildungswert (Canva AI)

Einordnung (Canva AI)

Adobe Firefly

Altersfreigabe (Adobe Firefly)

Zugang (Adobe Firefly)

Stärken (Adobe Firefly)

Schwächen (Adobe Firefly)

Sicherheit (Adobe Firefly)

Bildungswert (Adobe Firefly)

Einordnung (Adobe Firefly)

Stable Diffusion

Altersfreigabe (Stable Diffusion)

Zugang (Stable Diffusion)

Stärken (Stable Diffusion)

Schwächen (Stable Diffusion)

Sicherheit (Stable Diffusion)

Bildungswert (Stable Diffusion)

Einordnung (Stable Diffusion)

Thema

Multimodale Modelle: im Dialog gestalten

Herkömmliche Bildmodelle

Multimodale Modelle

Thema

Wie prompte ich bessere Bilder?

Sprache

Visueller Stil

Inhalt

Farbschema und Atmosphäre

Seitenverhältnis

Thema

Anwendungsbeispiele für den Alltag

Für Familien

Geschichten personalisieren

Beispiel

Wohnungseinrichtung neu denken

Beispiel

Einladungen oder Karten gestalten

Beispiel

Für den Schulkontext

Geschichte lebendig gestalten

Beispiel

Biologie in Zoom und Zeitraffer

Beispiel

Lernbilder statt Wortkarten

Beispiele

Kernkompetenz KI-Bilder erkennen

Beispiel

Für die Arbeit

«Liebe KI, bitte wandle meine Zeichnung
in ein fotorealistisches Bild um.»

Was sind die bekanntesten
KI-Bildgeneratoren?

GPT-4o (OpenAI) 

Stärken  (GPT-4o)

Schwächen (GPT-4o) 

Sicherheit  (GPT-4o)

Bildungswert  (GPT-4o)

Einordnung  (GPT-4o)

Midjourney 

Schwächen  (Midjourney)

Sicherheit  (Midjourney)

Bildungswert  (Midjourney)

Einordnung  (Midjourney)

Stärken  (Canva AI)

Schwächen  (Canva AI)

Schwächen (Adobe Firefly) 

Sicherheit (Adobe Firefly) 

Einordnung (Adobe Firefly) 

Schwächen (Stable Diffusion) 

Sicherheit (Stable Diffusion) 

Bildungswert (Stable Diffusion)

Einordnung (Stable Diffusion) 

Wie prompte ich bessere Bilder?