Une image photoréaliste d'une vache surfant sur la mer et exultant - cela a longtemps été une impossibilité. Aujourd'hui, de tels sujets font déjà partie du quotidien. Les IA d'images génératives et les modèles de diffusion, qui peuvent construire une image pixel par pixel selon un prompt, en sont responsables. Sur cette page, nous nous interrogeons sur les modèles connus, nous affinons les invites de génération d'images et nous évaluons les chances et les risques de l'IA générative d'images.
Aller directement au sujet
Partager la page
Comme pour l'IA textuelle, les offres de générateurs d'images d'IA se multiplient. En tête du classement qualitatif, on trouve toujours Midjourney, Dall-E, Stable Diffusion et Adobe Firefly.
Dans une comparaison, nous vous montrons les différentes qualités des quatre générateurs d'images les plus connus: nous faisons exécuter la même invite par les quatre modèles et comparons le résultat.
Realistic photos, high level of detail. A wooden house on a small lake. A jetty leads out into the lake. A rowing boat is tied to it. It is raining.
L'outil de génération d'images Midjourney est utilisé soit via l'application de chat Discord, soit, depuis peu, directement sur midjourney.com avec Midjourney Alpha.
Midjourney convainc par sa qualité exceptionnelle et offre, grâce aux différents paramètres, un contrôle élevé lors de la génération d'images. L'outil a son propre style et génère des images très attrayantes avec peu d'efforts de prompt.
Les prix
À partir de 8 $ par mois
Pour Midjourney Alpha: https://alpha.midjourney.com/home(ouvre une nouvelle fenêtre)
Pour les utilisateurs avancés: Midjourney Parameter(ouvre une nouvelle fenêtre)
L'intégration de Dall-E dans l'outil ChatGPT (tous deux d'OpenAI) rend l'utilisation de l'outil de génération d'images très simple. Dans le format de chat, ChatGPT est chargé de la génération d'images. Le modèle linguistique traite la demande et laisse Dall-E exécuter la tâche. L'image ainsi générée est d'une grande qualité et est directement disponible dans l'historique du chat. Celle-ci peut également être téléchargée.
Ce que Dall-E fait particulièrement bien grâce à sa collaboration avec ChatGPT : La représentation de texte (par exemple dans des bulles ou des légendes).
Les prix:
Gratuit intégré dans Microsoft Copilot
23 $ par mois intégrés dans ChatGPT Plus
Pour Dall-E 3, la dernière version de Dall-E: https://openai.com/index/dall-e-3/(ouvre une nouvelle fenêtre)
Adobe Firefly est directement intégré dans Adobe Photoshop. Avec la fonction "Generative Fill", le programme de traitement d'images permet de modifier des éléments partiels dans une image existante.
Le résultat des images créées avec Adobe Firefly est très réaliste, mais l'outil montre sa faiblesse lors de la création de visages humains.
Les prix:
À partir de 26 $ par mois
Pour Adobe Photoshop Firefly: https://firefly.adobe.com/(ouvre une nouvelle fenêtre)
Stable Diffusion a été publié en août 2022 en tant que modèle de génération d'images à caractère open source (utilisable et développable gratuitement par le grand public) et est donc aujourd'hui souvent intégré dans des outils tiers tels que civitai.com ou leonardo.ai.
Le modèle est complexe dans son utilisation et peut générer des sujets photoréalistes ainsi que de l'art stylisé. Cela le rend particulièrement intéressant pour des applications telles que la visualisation de concepts ou autres. Stable Diffusion offre la plus grande adaptabilité de tous les modèles d'image et est donc le plus souvent utilisé dans les travaux des professionnels de la conception et des artistes.
Les prix:
Gratuit (Intégré dans de nombreux outils payants)
Vers la version web de Stable Diffusion: stablediffusionweb.com(ouvre une nouvelle fenêtre)
Pour que l'intelligence artificielle générative produise des images qui correspondent à vos attentes, il faut tenir compte de certaines choses lors du prompt. Un bon prompt donne des indications sur le style visuel, sur les contenus concrets ainsi que sur les proportions (selon le modèle).
En règle générale, veillez à ne pas utiliser de mots de remplissage lorsque vous envoyez un prompt. La bonne longueur de l'invite est essentielle, car des invites plus longues aident l'IA à mettre en œuvre votre idée. Cependant, si les instructions sont trop détaillées, l'IA risque de se perdre et de visualiser des éléments qui ne sont peut-être pas si importants pour vous.
Recherchez également termes techniques issus des arts visuels(ouvre une nouvelle fenêtre), afin de pouvoir donner des indications de style très concrètes à l'IA.
Chaque IA générative fonctionne de manière légèrement différente. Mais pour toutes, il vaut la peine de prêter attention à ces éléments de base:
Tous les générateurs d'images ne comprennent pas le français. Renseignez-vous sur la langue parlée par le générateur d'images que vous souhaitez utiliser et envoyez un message dans cette langue.
Dans quel style l'image doit-elle être réalisée ? Souhaitez-vous un style artistique stylisé (par exemple comme les tableaux de Van Gogh) ou un motif photoréaliste ? Donnez à l'IA l'ordre correspondant.
Que doit-on voir exactement sur l'image? Qu'est-ce qui se trouve au premier plan et à l'arrière-plan? Citez des motifs pertinents.
Dans quel schéma de couleurs l'image doit-elle être générée? Souhaitez-vous une image en noir et blanc ou une mise en scène colorée? D'où vient la lumière dans l'image? Quelle est l'ambiance de l'image?
Dans certains outils (comme Midjourney), vous pouvez donner des indications sur le rapport d'aspect, par exemple : portraits au rapport 3:4.
«cute comic style, wide angle, plush elephant shaking hand of a mouse, sunset, warm colors –ar 16:9»
Alors qu'au début, les modèles de génération d'images généraient principalement des images à partir de texte, les domaines d'application de l'IA d'image générative sont désormais très variés. Ainsi, différents modèles peuvent par exemple aussi transformer des esquisses en art stylisé ou générer à nouveau des parties d'une photo.
Vous trouverez ici trois exemples d'application de l'IA générative d'images:
Midjourney peut générer une image à partir d'un prompt vocal. Mais le modèle de génération d'images peut également travailler à partir d'une esquisse ou d'un dessin et le transformer en une image dans le style souhaité.
Un dessin peut ainsi être transformé, par exemple, en une visualisation en papier de bricolage, en un style de mosaïque ou en un style de bande dessinée.
Vous trouverez des instructions(ouvre une nouvelle fenêtre) étape par étape sur la manière de transformer des croquis ou des dessins en œuvres d'art stylisées à l'aide de Midjourney.
Les modèles de génération d'images peuvent également vous aider pour vos besoins graphiques. Vous souhaitez par exemple concevoir un logo pour une association, un produit ou un service ? Les modèles de génération d'images peuvent vous aider à trouver des idées.
Grâce à l'intégration de Dall-E dans ChatGPT et à la force qui en résulte pour l'affichage de texte, Dall-E convient particulièrement bien au prototypage de design de logos et autres.
La fonction "Generative Fill" d'Adobe Firefly vous permet de générer à nouveau certains éléments d'une image. Cela convient par exemple pour les portraits, si vous souhaitez faire redessiner l'arrière-plan.
Importez un portrait dans Adobe Photoshop et sélectionnez tout sauf les visages dans l'image. Utilisez "Generative Fill", formulez une invite et laissez la scène se régénérer autour des visages.
Comme toute chose dans le monde, les IA d'images génératives ont des avantages et des inconvénients. Nous avons résumé ici une sélection des aspects les plus importants.
Les IA d'images génératives offrent un potentiel artistique sans précédent pour les projets privés. Il est ainsi possible de représenter visuellement ses propres idées sous une forme attrayante, même si l'on manque peut-être soi-même de talent créatif.
Les modèles de génération d'images aident à mettre en œuvre ses propres idées, à poursuivre sa réflexion et inspirent le processus créatif grâce à des visualisations.
Vous souhaitez créer une carte de vœux ou un album de souvenirs? L'IA générative d'images peut vous y aider et vous fournir des visualisations conformes à vos souhaits en appuyant sur un bouton.
L'IA générative d'images est également d'une grande aide pour la présentation d'idées ou pour la visualisation de concepts.
Étant donné que les modèles de génération d'images fonctionnent sur la base de vos messages-guides, ils produisent des designs très personnalisés qui correspondent à vos attentes personnelles. Vous n'avez donc plus besoin de chercher longtemps des modèles adaptés à vos préférences individuelles.
L'entraînement d'une IA crée dans tous les cas une base de formation d'opinion et, dans de nombreux domaines, reflète les préjugés et les stéréotypes présents dans les données d'entraînement. En effet, même si des positions et des opinions aussi neutres que possible sont transmises lors de l'entraînement, il est pratiquement impossible de développer une IA exempte de préjugés et de valeurs.
Le droit d'auteur fait l'objet d'un débat controversé dans le cadre de l'intelligence artificielle générique. Étant donné que de nombreux modèles d'apprentissage profond sont également entraînés à l'aide de données protégées par des droits d'auteur provenant d'Internet, la question se pose de savoir à qui appartiennent les images générées au moyen de l'IA et si la génération d'images constitue une violation des droits d'auteur.
Grâce à l'IA générative d'images, des parties d'une image peuvent être remplacées ou modifiées de manière trompeuse. Ou des photos et des vidéos peuvent être entièrement recréées sur la base de données d'un visage, par exemple.
Si de telles images sont partagées avec le public, il existe un risque accru de diffusion de Fake News. Mais le droit à l'image est également touché.
Aujourd'hui, les images générées par une IA d'image sont encore souvent reconnaissables. Mais cela pourrait bientôt changer, car les modèles de génération d'images s'améliorent rapidement en termes de qualité.
Il est peu probable que l'humanité cesse soudainement de produire de l'art pictural en raison de l'intelligence artificielle génératrice d'images.
Mais ce qui peut arriver, c'est qu'avec l'automatisation de la création d'images visuelles, les obstacles à l'engagement d'un* artiste augmentent. Cela pourrait avoir un effet négatif sur ces groupes professionnels.
Nous avons réuni ici d'autres informations et contenus sur le thème "IA d'images et générateurs d'images".
Marcel est formateur chez Swisscom. Il est à votre disposition pour toutes les questions autour de l’IA.
Formateur chez Swisscom
Sujet
Comment fonctionnent les IA d'images?
Pour générer des images, une intelligence artificielle dispose de deux méthodes différentes: D'une part, les Generative Adversarial Networks (GAN) et, d'autre part, les modèles de diffusion. Mais que se cache-t-il derrière ces termes?
GAN
Les réseaux adversaires génératifs (GAN) ont été la principale technologie de génération d'images d'IA au cours des dernières années. Dans un GAN, un générateur d'images, entraîné selon l'approche de l'apprentissage profond, génère une image en une seule étape.
Ce générateur d'images a popularisé la méthode GAN en 2014: https://thispersondoesnotexist.com/(ouvre une nouvelle fenêtre)
La faiblesse des GAN réside dans le fait que même si la situation de départ est différente, la même image peut être générée deux fois, car la technique le favorise.
Modèles de diffusion
Les modèles de diffusion adoptent une approche différente de celle des GAN : en 2021, des chercheurs de l'entreprise OpenAI ont proposé dans leur document "Diffusion Models Beat GANS on Image Synthesis"(ouvre une nouvelle fenêtre) les modèles de diffusion comme nouvelle et meilleure technique de génération d'images.
La différence pertinente dans le processus réside dans les étapes itératives des modèles de diffusion, qui permettent d'éviter les doublons et d'obtenir un niveau de détail plus élevé.
La technique de diffusion s'est aujourd'hui imposée dans tous les outils courants de génération d'images.