L'immagine di una mucca esultante che fa surf nel mare in una realizzazione fotorealistica: per molto tempo è stata un'impresa impossibile. Oggi questi soggetti fanno parte della vita quotidiana. Il merito è delle IA generative di immagini e dei modelli di diffusione che possono costruire un'immagine pixel per pixel in base a una richiesta. In questa pagina esaminiamo i modelli conosciuti, analizziamo le richieste di generazione di immagini e valutiamo le opportunità e i rischi dell'IA generativa di immagini.
Direttamente al tema
Condividi la pagina
L'intelligenza artificiale può utilizzare due metodi diversi per generare immagini: Le reti avversarie generative (GAN) da un lato e i modelli di diffusione dall'altro. Ma cosa si nasconde dietro questi termini?
Le reti avversarie generative (GAN) sono state la principale tecnologia di generazione di immagini AI negli ultimi anni. In una GAN, un generatore di immagini addestrato con un approccio di deep learning genera un'immagine in un unico passaggio.
Il metodo GAN è diventato popolare nel 2014 con questo generatore di immagini: https://thispersondoesnotexist.com/(apre una nuova finestra)
La debolezza delle GAN risiede nel fatto che la stessa immagine può essere generata due volte, anche con posizioni di partenza diverse, perché la tecnologia lo favorisce.
i modelli di diffusione hanno un approccio diverso rispetto alle GAN: nel 2021, i ricercatori della società OpenAI hanno proposto i modelli di diffusione come una nuova e migliore tecnica per la generazione di immagini nel loro articolo "Diffusion Models Beat GANS on Image Synthesis".
La differenza rilevante nel processo risiede nelle fasi iterative dei modelli di diffusione, che evitano duplicazioni e consentono un livello di dettaglio più elevato.
Oggi la tecnologia di diffusione si è affermata in tutti gli strumenti più comuni per la generazione di immagini.
Come per l'IA del testo, l'offerta di generatori di immagini IA è in continuo aumento. Midjourney, Dall-E, Stable Diffusion e Adobe Firefly sono ancora al top in termini di qualità.
In un confronto, vi mostriamo le diverse qualità dei quattro generatori di immagini più noti: eseguiamo lo stesso prompt da tutti e quattro i modelli e confrontiamo il risultato.
Realistic photos, high level of detail. A wooden house on a small lake. A jetty leads out into the lake. A rowing boat is tied to it. It is raining.
Lo strumento di generazione delle immagini di Midjourney viene utilizzato tramite l'app di chat Discord o, più recentemente, direttamente su midjourney.com con Midjourney Alpha.
Midjourney colpisce per la sua straordinaria qualità e offre un elevato grado di controllo sulla generazione delle immagini grazie ai suoi vari parametri. Lo strumento ha un proprio stile e genera immagini molto accattivanti con un minimo sforzo immediato.
Prezzi:
A partire da 8 dollari al mese
Informazioni su Midjourney Alpha: https://alpha.midjourney.com/home(apre una nuova finestra)
Per gli utenti avanzati: Midjourney Parameter(apre una nuova finestra)
L'integrazione di Dall-E nello strumento ChatGPT (entrambi di OpenAI) rende molto semplice l'utilizzo dello strumento di generazione di immagini. Nel formato chat, ChatGPT ha il compito di generare le immagini. Il modello linguistico elabora la richiesta e lascia che Dall-E svolga il compito. L'immagine così generata è di alta qualità e viene resa disponibile direttamente nella cronologia della chat. Può anche essere scaricata.
Ciò che Dall-E sa fare particolarmente bene grazie alla collaborazione con ChatGPT: La mappatura del testo (ad esempio nelle bolle vocali o nelle didascalie).
Prezzi:
Gratuito Integrato in Microsoft Copilot
23 dollari al mese integrati in ChatGPT Plus
Informazioni su Dall-E 3, l'ultima versione di Dall-E: https://openai.com/index/dall-e-3/(apre una nuova finestra)
Adobe Firefly è direttamente integrato in Adobe Photoshop. Con la funzione "Riempimento generativo", il programma di editing di immagini consente di modificare elementi parziali di un'immagine esistente.
Il risultato delle immagini create con Adobe Firefly è molto realistico, ma lo strumento mostra la sua debolezza quando si tratta di disegnare volti umani.
Prezzi:
A partire da 26 dollari al mese
Informazioni su Adobe Photoshop Firefly: https://firefly.adobe.com/(apre una nuova finestra)
Stable Diffusion è stato pubblicato nell'agosto del 2022 come modello di generazione di immagini open-source (libero di essere utilizzato e ulteriormente sviluppato dal pubblico) ed è quindi spesso integrato in strumenti di terze parti come civitai.com o leonardo.ai.
Il modello è complesso da usare e può creare sia soggetti fotorealistici che arte stilizzata. Ciò lo rende particolarmente interessante per casi d'uso come la visualizzazione di concetti o simili. Stable Diffusion offre la massima personalizzazione di tutti i modelli di immagine ed è quindi il più usato nel lavoro di professionisti del design e artisti.
Prezzi:
Gratuito (Integrato in molti strumenti a pagamento)
Alla versione web di Diffusione stabile: stablediffusionweb.com(apre una nuova finestra)
Per garantire che l'intelligenza artificiale generativa generi immagini che soddisfino le aspettative dell'utente, è necessario tenere conto di alcuni aspetti al momento della richiesta. Un buon prompt specifica lo stile visivo, il contenuto specifico e il rapporto di aspetto (a seconda del modello).
Quando si inviano i messaggi, assicurarsi di non usare parole riempitive. La giusta lunghezza del prompt è fondamentale, in quanto i prompt più lunghi aiutano l'IA a realizzare la vostra idea. Tuttavia, se la richiesta è troppo lunga, l'IA può perdersi e visualizzare elementi che forse non sono così importanti per voi.
Ricercate anche termini tecnici delle arti visive(apre una nuova finestra) per poter dare all'IA linee guida di stile molto specifiche.
Ogni IA generativa funziona in modo leggermente diverso. Ma per tutte vale la pena di prestare attenzione a questi aspetti fondamentali:
Non tutti i generatori di immagini capiscono il tedesco. Scoprite quale lingua parla il generatore di immagini desiderato e richiedetelo in questa lingua.
In quale stile deve essere realizzato il quadro? Si desidera uno stile artistico stilizzato (ad esempio, come i dipinti di Van Gogh) o un motivo fotorealistico? Date all'IA l'ordine corrispondente.
Cosa deve essere mostrato esattamente nell'immagine? Cosa c'è in primo piano e cosa sullo sfondo? Indicare i motivi rilevanti.
In quale schema di colori deve essere generata l'immagine? Volete un'immagine in bianco e nero o una messa in scena colorata? Da dove proviene la luce nell'immagine? Qual è l'atmosfera dell'immagine?
In alcuni strumenti (come Midjourney) è possibile specificare il rapporto d'aspetto, ad esempio: ritratti in rapporto 3:4.
«cute comic style, wide angle, plush elephant shaking hand of a mouse, sunset, warm colors –ar 16:9»
Mentre inizialmente i modelli di generazione di immagini generavano principalmente immagini dal testo, le aree di applicazione dell'IA generativa di immagini sono oggi molto diverse. Ad esempio, vari modelli possono anche trasformare schizzi in arte stilizzata o rigenerare parti di una foto.
Tre esempi di applicazione dell'IA generativa delle immagini sono disponibili qui:
Midjourney può generare un'immagine a partire da una richiesta linguistica. Tuttavia, il modello di generazione delle immagini può anche lavorare con uno schizzo o un disegno come base e convertirlo in un'immagine nello stile desiderato.
Ad esempio, un disegno può essere convertito in una visualizzazione in carta da costruzione, in uno stile a mosaico o in uno stile a fumetti.
Una guida(apre una nuova finestra) passo passo su come utilizzare Midjourney per trasformare schizzi o disegni in opere d'arte stilizzate è disponibile qui.
I modelli di generazione di immagini possono anche aiutarvi a risolvere problemi grafici. Ad esempio, volete progettare un logo per un'organizzazione o un prodotto o servizio? I modelli di generazione di immagini possono aiutarvi a trovare idee.
Grazie all'integrazione di Dall-E in ChatGPT e alla forza associata alla visualizzazione del testo, Dall-E è particolarmente adatto alla prototipazione di loghi e simili.
È possibile utilizzare la funzione "Riempimento generativo" di Adobe Firefly per rigenerare alcuni elementi di un'immagine. Questa funzione è adatta per i ritratti, ad esempio, se si desidera ridisegnare lo sfondo.
Importare un ritratto in Adobe Photoshop e selezionare tutto tranne i volti nell'immagine. Utilizzare "Riempimento generativo", formulare un prompt e rigenerare la scena intorno ai volti.
Come ogni altra cosa al mondo, anche le IA generative di immagini presentano vantaggi e svantaggi. Abbiamo riassunto qui una selezione degli aspetti più importanti.
Le IA generative di immagini offrono un potenziale artistico senza precedenti per i progetti privati. Questo permette di visualizzare le proprie idee in una forma accattivante, anche se non si ha il talento creativo necessario.
I modelli di generazione di immagini aiutano a realizzare le proprie idee, a pensare al futuro e a ispirare il processo creativo attraverso le visualizzazioni.
Volete progettare un biglietto d'auguri o un album di ricordi? L'intelligenza artificiale generativa delle immagini può aiutarvi e fornire visualizzazioni secondo i vostri desideri con la semplice pressione di un tasto.
L'intelligenza artificiale generativa delle immagini è di grande aiuto anche nella presentazione di idee o nella visualizzazione di concetti.
Poiché i modelli di generazione delle immagini lavorano sulla base dei vostri suggerimenti, vengono creati design altamente personalizzati che corrispondono alle vostre idee personali. In questo modo non è più necessario cercare a lungo modelli personalizzati in base alle proprie preferenze.
L'addestramento di un'IA crea in ogni caso una base per la formazione di opinioni e in molti ambiti riflette i pregiudizi e gli stereotipi presenti nei dati di addestramento. Anche se durante l'addestramento vengono trasmesse posizioni e opinioni neutrali, è quasi impossibile sviluppare un'IA libera da pregiudizi e valori.
Il copyright è un argomento controverso nel contesto dell'intelligenza artificiale generica. Poiché molti modelli di deep learning vengono addestrati utilizzando anche dati protetti da copyright provenienti da Internet, sorge la domanda: chi è il proprietario delle immagini generate con l'AI e la generazione di immagini viola il copyright?
Utilizzando l'intelligenza artificiale generativa delle immagini, è possibile sostituire o alterare parti di un'immagine in modo ingannevolmente realistico. Oppure foto e video possono essere completamente ricreati sulla base di un volto, ad esempio.
Se tali immagini vengono condivise con il pubblico, aumenta il rischio di diffusione di fake news. Ma anche il diritto alla propria immagine ne risente.
Oggi, le immagini generate da un'intelligenza artificiale sono spesso ancora riconoscibili. Tuttavia, la situazione potrebbe presto cambiare, poiché i modelli di generazione delle immagini stanno rapidamente migliorando in termini di qualità.
È improbabile che l'umanità smetta improvvisamente di produrre arte visiva a causa dell'intelligenza artificiale che genera immagini.
Ciò che può accadere, tuttavia, è che l'automazione della progettazione di immagini visive aumenti l'ostacolo all'assunzione di un artista. Ciò potrebbe avere un impatto negativo su questi gruppi professionali.
L'intelligenza artificiale è entrata da tempo nella nostra vita quotidiana. Ma dove viene utilizzata l'AI? Quali sono le possibilità? Cosa c'è dietro ChatGPT e come viene utilizzato il modello linguistico?
Contenuti del corso
Costi
Gratuito / 60 minuti
Informazioni
Proprio computer (PC/Mac) con navigatore Internet e accesso a Internet
Seminario online
Qui abbiamo raccolto ulteriori informazioni e contenuti sul tema "AI e generatori di immagini".
Marcel è un formatore di Swisscom. È a vostra completa disposizione per tutte le domande sull'IA.
Formatore di Swisscom