Swisscom Campus Newsletter
Erhalten Sie neue Inhalte vom Swisscom Campus direkt in Ihre Mailbox, dank dem Swisscom Campus Newsletter.
Ein Bild von einer im Meer surfenden, jubelnden Kuh in fotorealistischer Umsetzung – das war lange Zeit ein Ding der Unmöglichkeit. Heute gehören solche Sujets bereits zum Alltag. Verantwortlich dafür sind generative Bild-KIs und Diffusionsmodelle, die ein Bild einem Prompt gemäss Pixel für Pixel aufbauen können. Auf dieser Seite fragen wir nach bekannten Modellen, sprechen über nützliche Anwendungsfälle und darüber, wie man KI-generierte von echten Bildern unterscheiden kann.
Direkt zum Thema
Seite teilen
Wie funktionieren Bild-KIs?
Um Bilder zu generieren, stehen einer Künstlichen Intelligenz zwei verschiedene Methoden zur Verfügung: Einerseits Generative Adversarial Networks (GANs) und andererseits Diffusionsmodelle. Doch was verbirgt sich hinter diesen Begriffen?
Wie bei der Text-KI gibt es auch bei den KI-Bildgeneratoren immer mehr Modelle. An der qualitativen Spitze stehen aktuell GPT-4o und Midjourney.
Wie unterscheiden sich die bekanntesten Bildgeneratoren in der Qualität, wenn sie denselben Prompt ausführen?
«cute comic style, wide angle, plush elephant shaking hand of a mouse, sunset, warm colors –ar 16:9»
Die nächste Generation der KI-Bildgeneratoren funktioniert leicht anders als die Vorgänger: Statt nur Text zu verstehen, können multimodale «Omni»-Modelle wie GPT-4o gleichermassen Text, Bild und Audio verarbeiten. Das klingt nach Multitasking – und ist es auch. Aber nur für die KI, für dich wird die Nutzung damit einfacher und natürlicher.
Multimodale KI geht über Text und Bilder hinaus.
Das bedeutet für deine Prompts:
Du schreibst einen Text-Prompt (z.B. «Ein roter Apfel auf einem Tisch» und lässt die KI ein Bild generieren.
Du kannst auch ein Bild von einem roten Apfel auf einem Tisch hochladen und die KI anweisen: «Mach den Apfel blau und füge eine Banane hinzu» oder «Erstelle eine ähnliche Szene, aber im Winter».
Mit multimodalen Modellen ist es einfacher geworden, mit einem Beispiel und im Dialog mit der KI an deinem Wunschbild zu schleifen. Im Gegensatz zu reinen Bildgeneratoren wie DALL·E können multimodale Modelle wie GPT-4o sich an den Chatverlauf und frühere Bildversionen erinnern und so das Bild iterativ und gemeinsam mit dir bearbeiten. Stelle dir die Bild-KI wie eine persönliche Designerin vor, der du über die Schulter schaust und dich währenddessen mit ihr austauschst. Nutze die Dialogfunktion, wenn du Fragen zur Bildbearbeitung hast, um dir Alternativen zeigen zu lassen oder gib konkretes Feedback zu den Ergebnissen (das gefällt mir, jenes aber nicht).
Ein kleiner Wermutstropfen: Die multimodalen Modelle stecken zurzeit noch in den Kinderschuhen und sind in der Ausarbeitung manchmal noch nicht ganz ausgereift. Es kann darum passieren, dass die KI Teile des ursprünglichen Bildes vergisst oder nicht alle Bilddetails sich im Gespräch steuern lassen.
Ein guter Prompt gibt Vorgaben zum visuellen Stil, zu konkreten Inhalten sowie zum Seitenverhältnis (je nach Modell). Worauf du dich sonst noch achten kannst, damit die KI jene Bilder generiert, die du dir vorstellst, verraten wir dir hier.
Ein paar Grundsätze vorab: Achte beim Prompten darauf, keine Füllwörter zu verwenden. Die richtige Prompt-Länge ist zentral, denn längere Prompts helfen der KI bei der Umsetzung deiner Idee. Bei zu ausführlichen Vorgaben kann sich die KI jedoch auch verlieren und Elemente visualisieren, die dir vielleicht gar nicht so wichtig sind.
Recherchiere auch Fachbegriffe aus der visuellen Kunst(öffnet ein neues Fenster), um der KI ganz konkrete Stilvorgaben machen zu können.
Jede generative KI arbeitet leicht anders. Aber bei allen lohnt es sich, auf diese grundlegenden Dinge zu achten:
Die KI-Bildgenerierung kann mehr als «nur» den künstlerischen Selbstausdruck fördern. Sie kann dir auch im Familienalltag oder im Schulkontext behilflich sein. Von der Zimmergestaltung bis zum Geschichtsunterricht – die Möglichkeiten sind vielfältiger, als du vielleicht denkst.
Weihnachtskarte mit KI erstellen.
Wenn du KI-generierte Inhalte für kommerzielle Zwecke nutzen willst, informiere dich vorab über die Nutzungsrechte und Datenschutzbedingungen der Modelle. Kennzeichne KI-generierte Inhalte aus ethischen und rechtlichen Gründen transparent als solche. Beachte natürlich auch allfällige Corporate Design-Richtlinien. Und betrachte KI als Ergänzung, aber nicht als Ersatz für menschliche Fähigkeiten und Kreativität.
Dass du KI-generierte Bilder erkennen kannst, wird zu einer wichtigen Medienkompetenz. Hier zeigen wir dir, worauf du achten und was du tun kannst, wenn du dir mal unsicher bist. Mit etwas Übung entwickelst du ein gutes Gespür. Bleibe dennoch immer aufmerksam, denn die Technologien werden täglich besser.
Was bei der Erkennung von Video-Deepfakes gilt, hilft meist auch, um KI-generierte Bilder zu entlarven. Einfach ist es deswegen aber noch lange nicht. Selbst Expert*innen liegen manchmal daneben. Wenn du dir also mal unsicher bist, ist das völlig normal. Wichtig ist, dass du kritisch bleibst und bei Unsicherheit nachforschst.
Grundsätzlich gilt: Verlasse dich nicht auf ein Merkmal, sondern prüfe lieber mehrere Aspekte. Bleibe besonders bei perfekten Bildern skeptisch.
Deepfakes gibt es neben Videos natürlich auch in der Form von Bildern. Etwa wenn Bildelemente mittels generativer KI ausgetauscht werden, sodass sich die Botschaft verändert, das Bild aber immer noch täuschend echt aussieht. Bei Bildern ist zusätzlich das Urheberrecht ein kontrovers diskutiertes Thema.
Als Lehrperson stehst du vor der Frage: Soll ich Bild-KI zur Vorbereitung oder im Unterricht nutzen – und wenn ja, wie? Wie so oft gilt auch hier: Klar, nutze die Chancen der neuen Technologien, aber sei dir auch der Grenzen und Risiken bewusst. Damit kannst du deine eigenen Entscheidungen treffen und die Medienkompetenz in deiner Klasse bewusst mitgestalten.
Im Kurs lernen Lehrpersonen KI-Bildgeneratoren kennen und erfahren, was im Hintergrund geschieht, sobald die Prompts abgeschickt werden. Wir thematisieren, wo und wie sich die Bildgeneratoren für den Unterricht eignen und wie Realität, Manipulation und Verantwortung rund um die Bildgenerierung im Unterricht thematisiert werden können. Das 90-minütige Webinar ist in Zusammenarbeit mit LerNetz entstanden.
Weitere Informationen und Inhalte zum Thema «Bild-KIs und Bildgeneratoren» haben wir hier zusammengetragen.
Marcel ist Trainer bei Swisscom. Er steht Ihnen bei allen Fragen rund um das Thema KI zur Verfügung.
Trainer bei Swisscom