«Liebe KI, bitte wandle meine Zeichnung
in ein fotorealistisches Bild um.»

  Swisscom Campus Newsletter
Erhalten Sie neue Inhalte vom Swisscom Campus direkt in Ihre Mailbox, dank dem Swisscom Campus Newsletter.

16 Minuten

Generative Bild-KIs und Bildgenerierungsmodelle

Ein Bild von einer im Meer surfenden, jubelnden Kuh in fotorealistischer Umsetzung – das war lange Zeit ein Ding der Unmöglichkeit. Heute gehören solche Sujets bereits zum Alltag. Verantwortlich dafür sind generative Bild-KIs und Diffusionsmodelle, die ein Bild einem Prompt gemäss Pixel für Pixel aufbauen können. Auf dieser Seite fragen wir nach bekannten Modellen, sprechen über nützliche Anwendungsfälle und darüber, wie man KI-generierte von echten Bildern unterscheiden kann.  

Folgende Themen finden Sie auf dieser Seite:

Wie funktionieren Bild-KIs?

Thema

Wie funktionieren Bild-KIs?

Um Bilder zu generieren, stehen einer Künstlichen Intelligenz zwei verschiedene Methoden zur Verfügung: Einerseits Generative Adversarial Networks (GANs) und andererseits Diffusionsmodelle. Doch was verbirgt sich hinter diesen Begriffen?

Thema

Was sind die bekanntesten
KI-Bildgeneratoren?

Wie bei der Text-KI gibt es auch bei den KI-Bildgeneratoren immer mehr Modelle. An der qualitativen Spitze stehen aktuell GPT-4o und Midjourney. 

Wie unterscheiden sich die bekanntesten Bildgeneratoren in der Qualität, wenn sie denselben Prompt ausführen? 

«cute comic style, wide angle, plush elephant shaking hand of a mouse, sunset, warm colors –ar 16:9»

Thema

Multimodale Modelle: im Dialog gestalten

Die nächste Generation der KI-Bildgeneratoren funktioniert leicht anders als die Vorgänger: Statt nur Text zu verstehen, können multimodale «Omni»-Modelle wie GPT-4o gleichermassen Text, Bild und Audio verarbeiten. Das klingt nach Multitasking – und ist es auch. Aber nur für die KI, für dich wird die Nutzung damit einfacher und natürlicher.

Multimodale KI geht über Text und Bilder hinaus.

Das bedeutet für deine Prompts: 

Herkömmliche Bildmodelle

Du schreibst einen Text-Prompt (z.B. «Ein roter Apfel auf einem Tisch» und lässt die KI ein Bild generieren.  

Multimodale Modelle

Du kannst auch ein Bild von einem roten Apfel auf einem Tisch hochladen und die KI anweisen: «Mach den Apfel blau und füge eine Banane hinzu» oder «Erstelle eine ähnliche Szene, aber im Winter».  

Mit multimodalen Modellen ist es einfacher geworden, mit einem Beispiel und im Dialog mit der KI an deinem Wunschbild zu schleifen. Im Gegensatz zu reinen Bildgeneratoren wie DALL·E können multimodale Modelle wie GPT-4o sich an den Chatverlauf und frühere Bildversionen erinnern und so das Bild iterativ und gemeinsam mit dir bearbeiten. Stelle dir die Bild-KI wie eine persönliche Designerin vor, der du über die Schulter schaust und dich währenddessen mit ihr austauschst. Nutze die Dialogfunktion, wenn du Fragen zur Bildbearbeitung hast, um dir Alternativen zeigen zu lassen oder gib konkretes Feedback zu den Ergebnissen (das gefällt mir, jenes aber nicht).   

Ein kleiner Wermutstropfen: Die multimodalen Modelle stecken zurzeit noch in den Kinderschuhen und sind in der Ausarbeitung manchmal noch nicht ganz ausgereift. Es kann darum passieren, dass die KI Teile des ursprünglichen Bildes vergisst oder nicht alle Bilddetails sich im Gespräch steuern lassen.  

Thema

Wie prompte ich bessere Bilder?

Ein guter Prompt gibt Vorgaben zum visuellen Stil, zu konkreten Inhalten sowie zum Seitenverhältnis (je nach Modell). Worauf du dich sonst noch achten kannst, damit die KI jene Bilder generiert, die du dir vorstellst, verraten wir dir hier.

Ein paar Grundsätze vorab:  Achte beim Prompten darauf, keine Füllwörter zu verwenden. Die richtige Prompt-Länge ist zentral, denn längere Prompts helfen der KI bei der Umsetzung deiner Idee. Bei zu ausführlichen Vorgaben kann sich die KI jedoch auch verlieren und Elemente visualisieren, die dir vielleicht gar nicht so wichtig sind.  

Recherchiere auch Fachbegriffe aus der visuellen Kunst(öffnet ein neues Fenster), um der KI ganz konkrete Stilvorgaben machen zu können.  

Jede generative KI arbeitet leicht anders. Aber bei allen lohnt es sich, auf diese grundlegenden Dinge zu achten: 

Thema

Anwendungsbeispiele für den Alltag

Die KI-Bildgenerierung kann mehr als «nur» den künstlerischen Selbstausdruck fördern. Sie kann dir auch im Familienalltag oder im Schulkontext behilflich sein. Von der Zimmergestaltung bis zum Geschichtsunterricht –  die Möglichkeiten sind vielfältiger, als du vielleicht denkst.

Weihnachtskarte mit KI erstellen.

Für Familien

Für den Schulkontext

Für die Arbeit

Hinweise für den professionellen Einsatz

Wenn du KI-generierte Inhalte für kommerzielle Zwecke nutzen willst, informiere dich vorab über die Nutzungsrechte und Datenschutzbedingungen der Modelle. Kennzeichne KI-generierte Inhalte aus ethischen und rechtlichen Gründen transparent als solche. Beachte natürlich auch allfällige Corporate Design-Richtlinien. Und betrachte KI als Ergänzung, aber nicht als Ersatz für menschliche Fähigkeiten und Kreativität.  

Thema

Wie erkenne ich KI-generierte Bilder?

Dass du KI-generierte Bilder erkennen kannst, wird zu einer wichtigen Medienkompetenz. Hier zeigen wir dir, worauf du achten und was du tun kannst, wenn du dir mal unsicher bist. Mit etwas Übung entwickelst du ein gutes Gespür. Bleibe dennoch immer aufmerksam, denn die Technologien werden täglich besser.  

Was bei der Erkennung von Video-Deepfakes gilt, hilft meist auch, um KI-generierte Bilder zu entlarven. Einfach ist es deswegen aber noch lange nicht. Selbst Expert*innen liegen manchmal daneben. Wenn du dir also mal unsicher bist, ist das völlig normal. Wichtig ist, dass du kritisch bleibst und bei Unsicherheit nachforschst. 

Erkennungsmerkmale von KI-Bildern können sein

Grundsätzlich gilt: Verlasse dich nicht auf ein Merkmal, sondern prüfe lieber mehrere Aspekte. Bleibe besonders bei perfekten Bildern skeptisch. 

Deepfakes und die Gefahren generativer KI

Deepfakes gibt es neben Videos natürlich auch in der Form von Bildern. Etwa wenn Bildelemente mittels generativer KI ausgetauscht werden, sodass sich die Botschaft verändert, das Bild aber immer noch täuschend echt aussieht. Bei Bildern ist zusätzlich das Urheberrecht ein kontrovers diskutiertes Thema. 

Welche Gefahren birgt generative KI?

Thema

Was sind die Chancen und Grenzen in der Bildung? 

Als Lehrperson stehst du vor der Frage: Soll ich Bild-KI zur Vorbereitung oder im Unterricht nutzen – und wenn ja, wie? Wie so oft gilt auch hier: Klar, nutze die Chancen der neuen Technologien, aber sei dir auch der Grenzen und Risiken bewusst. Damit kannst du deine eigenen Entscheidungen treffen und die Medienkompetenz in deiner Klasse bewusst mitgestalten.

Chancen

Grenzen

Webinar für Lehrpersonen: KI-Bildgeneratoren verstehen und einsetzen

Im Kurs lernen Lehrpersonen KI-Bildgeneratoren kennen und erfahren, was im Hintergrund geschieht, sobald die Prompts abgeschickt werden. Wir thematisieren, wo und wie sich die Bildgeneratoren für den Unterricht eignen und wie Realität, Manipulation und Verantwortung rund um die Bildgenerierung im Unterricht thematisiert werden können.   Das 90-minütige Webinar ist in Zusammenarbeit mit LerNetz entstanden.  

Informationen zum Kurs(öffnet ein neues Fenster)

Das Wichtigste in Kürze

Marcel fragen

Marcel ist Trainer bei Swisscom. Er steht Ihnen bei allen Fragen rund um das Thema KI zur Verfügung.

Portrait des Leiters Jugendmedienschutz Michael In Albon
Marcel

Trainer bei Swisscom