Une image photoréaliste d'une vache surfant sur la mer et exultant - cela a longtemps été une impossibilité. Aujourd'hui, de tels sujets font déjà partie du quotidien. Les IA d'images génératives et les modèles de diffusion, qui peuvent construire une image pixel par pixel selon un prompt, en sont responsables. Sur cette page, nous nous interrogeons sur les modèles connus, nous affinons les invites de génération d'images et nous évaluons les chances et les risques de l'IA générative d'images.
Aller directement au sujet
Partager la page
Comme pour l'IA textuelle, les offres de générateurs d'images d'IA se multiplient. En tête du classement qualitatif, on trouve toujours Midjourney, Dall-E, Stable Diffusion et Adobe Firefly.
Dans une comparaison, nous vous montrons les différentes qualités des quatre générateurs d'images les plus connus: nous faisons exécuter la même invite par les quatre modèles et comparons le résultat.
Realistic photos, high level of detail. A wooden house on a small lake. A jetty leads out into the lake. A rowing boat is tied to it. It is raining.
Pour que l'intelligence artificielle générative produise des images qui correspondent à vos attentes, il faut tenir compte de certaines choses lors du prompt. Un bon prompt donne des indications sur le style visuel, sur les contenus concrets ainsi que sur les proportions (selon le modèle).
En règle générale, veillez à ne pas utiliser de mots de remplissage lorsque vous envoyez un prompt. La bonne longueur de l'invite est essentielle, car des invites plus longues aident l'IA à mettre en œuvre votre idée. Cependant, si les instructions sont trop détaillées, l'IA risque de se perdre et de visualiser des éléments qui ne sont peut-être pas si importants pour vous.
Recherchez également termes techniques issus des arts visuels(ouvre une nouvelle fenêtre), afin de pouvoir donner des indications de style très concrètes à l'IA.
Chaque IA générative fonctionne de manière légèrement différente. Mais pour toutes, il vaut la peine de prêter attention à ces éléments de base:
«cute comic style, wide angle, plush elephant shaking hand of a mouse, sunset, warm colors –ar 16:9»
Alors qu'au début, les modèles de génération d'images généraient principalement des images à partir de texte, les domaines d'application de l'IA d'image générative sont désormais très variés. Ainsi, différents modèles peuvent par exemple aussi transformer des esquisses en art stylisé ou générer à nouveau des parties d'une photo.
Vous trouverez ici trois exemples d'application de l'IA générative d'images:
Comme toute chose dans le monde, les IA d'images génératives ont des avantages et des inconvénients. Nous avons résumé ici une sélection des aspects les plus importants.
Nous avons réuni ici d'autres informations et contenus sur le thème "IA d'images et générateurs d'images".
Marcel est formateur chez Swisscom. Il est à votre disposition pour toutes les questions autour de l’IA.
Formateur chez Swisscom
Sujet
Comment fonctionnent les IA d'images?
Pour générer des images, une intelligence artificielle dispose de deux méthodes différentes: D'une part, les Generative Adversarial Networks (GAN) et, d'autre part, les modèles de diffusion. Mais que se cache-t-il derrière ces termes?
GAN
Les réseaux adversaires génératifs (GAN) ont été la principale technologie de génération d'images d'IA au cours des dernières années. Dans un GAN, un générateur d'images, entraîné selon l'approche de l'apprentissage profond, génère une image en une seule étape.
Ce générateur d'images a popularisé la méthode GAN en 2014: https://thispersondoesnotexist.com/(ouvre une nouvelle fenêtre)
La faiblesse des GAN réside dans le fait que même si la situation de départ est différente, la même image peut être générée deux fois, car la technique le favorise.
Modèles de diffusion
Les modèles de diffusion adoptent une approche différente de celle des GAN : en 2021, des chercheurs de l'entreprise OpenAI ont proposé dans leur document "Diffusion Models Beat GANS on Image Synthesis"(ouvre une nouvelle fenêtre) les modèles de diffusion comme nouvelle et meilleure technique de génération d'images.
La différence pertinente dans le processus réside dans les étapes itératives des modèles de diffusion, qui permettent d'éviter les doublons et d'obtenir un niveau de détail plus élevé.
La technique de diffusion s'est aujourd'hui imposée dans tous les outils courants de génération d'images.