Une image photoréaliste d'une vache surfant dans la mer et jubilant: cela a longtemps été impossible. Aujourd'hui, de tels sujets font déjà partie de notre quotidien. Cela est rendu possible grâce à l'IA générative et aux modèles de diffusion, qui peuvent construire une image pixel par pixel à partir d'une simple suggestion. Sur cette page, nous vous présentons des modèles connus, discutons des cas d'utilisation utiles et expliquons comment distinguer les images générées par l'IA des images réelles.
Aller directement au sujet
Partager la page
Comme pour l'IA textuelle, il existe de plus en plus de modèles d'IA générateurs d'images. GPT-4o et Midjourney sont actuellement les modèles les plus performants en termes de qualité.
Quelle est la différence de qualité entre les générateurs d'images les plus connus lorsqu'ils exécutent la même commande?
« Style bande dessinée mignon, grand angle, éléphant en peluche serrant la main d'une souris, coucher de soleil, couleurs chaudes – format 16:9 »
La nouvelle génération de générateurs d'images basés sur l'IA fonctionne légèrement différemment de ses prédécesseurs: au lieu de se contenter de comprendre du texte, les modèles multimodaux «Omni» tels que GPT-4o peuvent traiter à la fois du texte, des images et du son. Cela ressemble à du multitâche, et c'est effectivement le cas. Mais cela ne concerne que l'IA: pour vous, l'utilisation devient plus simple et plus naturelle.
L'IA multimodale va au-delà du texte et des images (vidéo en allemand).
Ce que cela signifie pour tes invites:
Tu écris une invite textuelle (par exemple « Une pomme rouge sur une table ») et laisses l'IA générer une image.
Tu peux également télécharger une image d'une pomme rouge sur une table et demander à l'IA: «Rends la pomme bleue et ajoute une banane» ou «Crée une scène similaire, mais en hiver».
Avec les modèles multimodaux, il est devenu plus facile de peaufiner l'image de vos rêves à l'aide d'un exemple et en dialoguant avec l'IA. Contrairement aux générateurs d'images purs tels que DALL·E, les modèles multimodaux tels que GPT-4o peuvent se souvenir de l'historique des discussions et des versions précédentes de l'image, ce qui leur permet de modifier l'image de manière itérative et collaborative avec vous. Imaginez l'IA d'image comme un designer personnel que vous observez par-dessus son épaule tout en échangeant avec lui. Utilisez la fonction de dialogue si vous avez des questions sur le traitement de l'image pour obtenir des alternatives ou donnez un retour concret sur les résultats (j'aime ça, mais pas ça).
Petit bémol: les modèles multimodaux en sont encore à leurs balbutiements et ne sont parfois pas encore tout à fait au point. Il peut donc arriver que l'IA oublie certaines parties de l'image d'origine ou que tous les détails de l'image ne puissent pas être contrôlés pendant la conversation.
Une bonne consigne fournit des indications sur le style visuel, le contenu concret et le format (selon le modèle). Nous te dévoilons ici d'autres éléments à prendre en compte pour que l'IA génère les images que tu imagines.
Quelques principes à respecter au préalable: veillez à ne pas utiliser de mots de remplissage lorsque vous rédigez votre prompt. La longueur du prompt est essentielle, car les prompts plus longs aident l'IA à mettre en œuvre votre idée. Si vos instructions sont trop détaillées, l'IA peut se perdre et visualiser des éléments qui ne sont peut-être pas si importants pour vous.
Recherchez également des termes techniques issus des arts visuels(ouvre une nouvelle fenêtre) afin de pouvoir donner à l'IA des instructions stylistiques très concrètes.
Chaque IA générative fonctionne légèrement différemment. Mais pour toutes, il est utile de prêter attention à ces éléments fondamentaux:
La génération d'images par IA peut faire bien plus que «simplement» favoriser l'expression artistique. Elle peut également t'aider dans ta vie quotidienne, en famille ou à l'école. De la décoration de ta chambre aux cours d'histoire, les possibilités sont plus variées que tu ne le penses.
Créer une carte de Noël avec l'IA (vidéo en allemand).
Si vous souhaitez utiliser des contenus générés par l'IA à des fins commerciales, renseignez-vous au préalable sur les droits d'utilisation et les conditions de protection des données des modèles. Pour des raisons éthiques et juridiques, identifiez clairement les contenus générés par l'IA comme tels. Respectez bien sûr également les éventuelles directives en matière de design d'entreprise. Et considérez l'IA comme un complément, mais pas comme un substitut aux capacités et à la créativité humaines.
Savoir reconnaître les images générées par l'IA devient une compétence médiatique importante. Nous te montrons ici ce à quoi tu dois faire attention et ce que tu peux faire si tu n'es pas sûr. Avec un peu de pratique, tu développeras un bon instinct. Reste toutefois vigilant, car les technologies s'améliorent chaque jour.
Ce qui vaut pour la détection des deepfakes vidéo aide généralement aussi à démasquer les images générées par l'IA. Mais cela n'est pas pour autant simple. Même les experts se trompent parfois. Il est donc tout à fait normal d'avoir des doutes. L'important est de rester critique et de faire des recherches en cas d'incertitude.
En règle générale, ne vous fiez pas à une seule caractéristique, mais vérifiez plutôt plusieurs aspects. Restez particulièrement sceptique face aux images parfaites.
Outre les vidéos, les deepfakes existent également sous forme d'images. C'est le cas lorsque des éléments d'une image sont remplacés à l'aide d'une IA générative, de sorte que le message change, mais que l'image reste d'un réalisme trompeur. Dans le cas des images, le droit d'auteur est également un sujet très controversé.
En tant qu'enseignant, vous êtes confronté à la question suivante: dois-je utiliser l'IA visuelle pour préparer mes cours ou pendant ceux-ci, et si oui, comment ? Comme souvent, la règle suivante s'applique ici aussi: bien sûr, profitez des opportunités offertes par les nouvelles technologies, mais soyez également conscient de leurs limites et de leurs risques. Vous pourrez ainsi prendre vos propres décisions et contribuer activement à développer les compétences médiatiques de vos élèves.
Dans ce cours, les enseignants découvrent les générateurs d'images IA et apprennent ce qui se passe en arrière-plan dès que les requêtes sont envoyées. Nous abordons les questions suivantes: où et comment les générateurs d'images peuvent-ils être utilisés dans l'enseignement? Comment aborder la réalité, la manipulation et la responsabilité dans le cadre de la génération d'images en classe? Ce webinaire de 90 minutes a été développé en collaboration avec LerNetz.
Nous avons réuni ici d'autres informations et contenus sur le thème "IA d'images et générateurs d'images".
Marcel est formateur chez Swisscom. Il est à votre disposition pour toutes les questions autour de l’IA.
Formateur chez Swisscom
Thème
Comment fonctionnent les IA d'images?
Pour générer des images, l'intelligence artificielle dispose de deux méthodes différentes: d'une part, les réseaux antagonistes génératifs (GAN) et, d'autre part, les modèles de diffusion. Mais que se cache-t-il derrière ces termes?
GANs
Les réseaux antagonistes génératifs (GAN) ont été la technologie de génération d'images par IA la plus utilisée ces dernières années. Dans un GAN, un générateur d'images entraîné selon l'approche du deep learning crée une image en une seule étape.
C'est avec ce générateur d'images que la méthode GAN est devenue populaire en 2014: https://thispersondoesnotexist.com(ouvre une nouvelle fenêtre)
La faiblesse des GAN réside dans le fait que, même lorsque les conditions de départ sont différentes, la même image peut être générée deux fois, car la technique favorise cela.
Modèles de diffusion
Les modèles de diffusion suivent une approche différente de celle des GAN: en 2021, des chercheurs de la société OpenAI ont proposé dans leur article «Diffusion Models Beat GANS on Image Synthesis» les modèles de diffusion comme nouvelle technique améliorée pour la génération d'images.
La différence pertinente dans le processus réside dans les étapes itératives des modèles de diffusion, qui permettent d'éviter les doublons et d'obtenir un niveau de détail plus élevé. La technique de diffusion s'est aujourd'hui imposée dans tous les outils courants de génération d'images.