Le parole si fanno immagine, siamo nell’era dell’intelligenza artificiale generativa

Nei mesi scorsi è arrivata la prima ondata di creazioni firmate da Dall-E 2, Midjourney, Stable Diffusion e tanti altri programmi IA che in pochi attimi producono immagini in risposta alle richieste degli utenti. Una frontiera inesplorata, gratuita e accessibile a tutti, che delinea nuovi paradigmi, cambia il rapporto uomo-macchina e il lavoro di fotografi e artisti.

Vince un concorso artistico, scrive tweet che generano più engagement rispetto alla media e più in generale tende a impressionare chi si trova davanti ai risultati che produce. Perché la scrittura è fluida e le immagini sorprendono per la precisione nel rispettare l’input di partenza. Non sembrerebbe nulla di eccezionale all’apparenza, al contrario la meraviglia abbonda quando si scopre che gli autori di cui sopra non sono uno scrittore né un artista, bensì un software. Oltre che per la sovrabbondanza di dati e per i social media, il periodo storico contemporaneo sarà ricordato in futuro anche come l’età dell’intelligenza artificiale. Il tempo in cui dopo l’apprendimento e la pianificazione, le macchine sono state in grado di creare immagini, traducendo in pochi attimi richieste testuali di qualsiasi natura.

Con la consapevolezza che al momento stiamo assistendo ai primi passi di una rivoluzione obbligata, che l’uomo non può fermare ma può e deve saper gestire, l’intelligenza artificiale è tra noi già da tempo. Al di là del seminario tenuto nel 1956 presso il Dartmouth College di Hanover, nel New Hampshire, durante il quale dieci tra informatici, matematici e ingegneri gettarono le basi per i successivi sviluppi della nuova disciplina, saltando ai nostri giorni le applicazioni di IA che si stanno diffondendo rapidamente rappresentano uno step ulteriore al primo momento di popolarità generalizzata. Quella in cui, oltre agli studiosi del tema, molti estranei hanno iniziato a prendere confidenza con gli assistenti vocali.

La rapida popolarità dell’Intelligenza artificiale generativa

Da dialoghi con Alexa, Google Assistente, Siri e Cortana, che sono gli assistenti intelligenti più popolari sul mercato (e sintesi delle quattro compagnie tech più ricche e influenti), nel corso del 2022 molti addetti ai lavori e curiosi hanno iniziato a testare programmi di intelligenza artificiale generativa. Un salto in avanti di ampia portata, perché grazie alla miscela di tecniche di machine learning e deep learning (con l’interferenza umana da una parte e il ricorso a reti neurali artificiali che replicano l’apprendimento dell’uomo dall’altro) si sfruttano modelli linguistici di grandi dimensioni che consentono di rispondere all’impulso iniziale, restituendo immagini, video, audio, modelli 3D, testi o stringhe di codice. Un processo che si consuma in pochi secondi e in quanto tale appare quasi magico, mentre in realtà è un botta e risposta automatizzato che interseca l’essere umano e le macchine che imitano il funzionamento del suo cervello.

L’accelerazione dell’IA generativa registrata l’anno scorso deriva dall’incremento qualitativo e quantitativo di dati, algoritmi e potenza di calcolo. Laddove fino a un lustro fa non si poteva andare oltre un modello linguistico limitato e perciò circoscritto per il numero di variabili in gioco per allenare l’intelligenza artificiale, la crescita citata prima ha permesso di spingere sull’acceleratore e ampliare costantemente la capacità di conoscenza, con un perenne divenire che nel tempo porterà i futuri software a rispondere in maniera sempre più ‘umana’ ai nostri interrogativi.

La svolta segnata nel 2017 dalla rete neurale introdotta da Google Research ha velocizzato lo sviluppo dei modelli linguistici, migliorando in primo luogo efficacia e tempi della traduzione automatica. Al contempo ha aperto il campo a GPT-3, terza e allora (maggio 2020) più avanzata generazione del Generative Pre-trained Transformer creato da OpenAI, laboratorio di ricerca fondato nel 2015 a San Francisco da un gruppo di ricercatori e ricchissimi volti noti della Silicon Valley (da Elon Musk, Peter Thiel, da Reid Hoffman a Sam Altam). L’importanza di GPT-3 sta nell’essere stato il primo modello efficace nella creazione di testi, che non equivale a essere immuni da errori, con specifico riferimento a testi inventati, privi di senso, offensivi e di stampo razzista. Una deriva evidenziata in fase di presentazione dai vari tool, destinati con l’addestramento a correggere gradualmente il tiro.

Dal testo all’immagine: i migliori generatori IA per sperimentare

Se la creazione testuale è attualmente il fronte più avanzato – come dimostra Chat-GPT, ultima evoluzione del chatbot firmato OpenAI, che per gli esperti del tema presenta un’interfaccia che ne agevola l’uso, mostrando il potenziale per avvicinare verso l’IA chi finora si è tenuto alla larga – il binario secondario è quello delle immagini. Archiviati i primi vagiti ristretti ai ricercatori, la moltiplicazione di applicazioni IA dedite alla creazione di un’immagine a partire da un testo sta democratizzando la possibilità d’uso di una tecnologia innovativa quanto accessibile per tutti. Al netto degli ormai pochi progetti di ricerca che richiedono un invito, il punto è che chiunque ha gli strumenti cognitivi per arrivare a generare immagini in relazione alle proprie necessità.

L’intero processo ruota attorno al prompt, cioè al tipo di imbeccata o istruzione fornita all’IA. A livello pratico si tratta di trovare le parole più indicate per ottenere l’immagine che si desidera, perché il prodotto finale dipende dalla comprensione del comando dell’IA e dalla sua capacità di pescare in memoria l’immagine più affine al testo di partenza, trasformato in dati per agevolare la ricerca.

Con una rapida ricerca su Google o Bing si può trovare un lungo elenco di generatori di immagini, il cui funzionamento è concettualmente identico poiché si basa su reti generative avversarie (la sigla è GAN, che sta per Generative Adversarial Networks). I risultati sono però differenti perché i programmi più sofisticati sono in grado di comprendere frasi complesse e quindi restituire immagini superiori in qualità e quantità di modelli meno avanzati. Le tre applicazioni Text to Image (TTI) più gettonate al momento sono Dall-E 2, Stable Diffusion e Midjourney, programmi dall’accesso gratuito (poi a pagamento superata una certa soglia) che creano immagini in base al prompt digitato.

Stable Diffusion – Ideato dall’Università Ludwig Maximilian di Monaco di Baviera insieme ad altri partner, Stable Diffusion è stato lanciato lo scorso agosto e il suo codice sorgente è disponibile in versione open source, così che tutti possono installarlo sui propri dispositivi e sviluppare applicazioni su misura. L’alternativa per usarlo via web è Dream Studio, dove basta inserire i termini desiderati e attendere una manciata di secondi per ottenere l’immagine generata. Il potenziale è notevole grazie al realismo dei risultati che produce (non mancano le imperfezioni nei dettagli, sia chiaro), tanto che a ottobre Stability AI, l’azienda dietro Stable Diffusion, ha raccolto 101 milioni di dollari in un round guidato da due fondi privati californiani.

Dall-E 2 – “Creare immagini e opere d’arte originali e realistiche a partire da una descrizione testuale. Può combinare concetti, attributi e stili”. Così si presenta Dall-E 2, seconda release rilasciata in estate del tool che OpenAI ha introdotto nel gennaio del 2021. Sintesi della combinazione tra Salvador Dalí e il robottino della Pixar Wall-E, l’ultimo arrivato genera immagini più grandi e definite (1024 x 1024 pixel, rispetto al 256 x 256 pixel della prima era) e risponde con efficacia a richieste più specifiche e complete. Oltre a creare varianti dell’immagine, consente anche di modificare immagini generate in precedenza. Subito testato su grande scala, a Dall-E 2 si deve la prima ondata di immagini firmate dall’IA che hanno riempito e caratterizzato i feed dei social media nella seconda parte del 2022.

Midjourney – Il progetto di ricerca per alcuni versi più interessante è Midjourney, simile agli altri nella generazione di immagini a partire da una richiesta testuale, diverso perché per utilizzarlo bisogna passare da Discord. Ideata nel 2015 da Jason Citron per consentire ai videogiocatori di comunicare durante le sessioni di gioco, la piattaforma è diventata presto un alleato prezioso nel mondo esports grazie alla bassa latenza e alla gratuità del servizio. Simile nella struttura a Slack, con stanze chiamate server in cui ci si può ritrovare con amici, colleghi o sconosciuti accomunati da gusti e argomenti (scoprendo l’ampia proposta saltando da un server all’altro), Discord è un programma di chat testuale, audio e video che negli ultimi mesi ha accolto tanti nuovi utenti attratti dalle sperimentazioni del text to image.

Da Night Cafe Creator a Hot Pot AI Maker sono tanti i bot fruibili su Discord, ma il più noto è Midjourney, cui si accede da questo server. Entrato in uno qualsiasi dei canali #newbies (che si trovano sulla colonna di sinistra), per iniziare a creare vanno inseriti i vocaboli o la descrizione dell’immagine che si vuole ottenere dopo il comando /imagine. A quel punto l’algoritmo inizia il lavoro e in meno di un minuto genera una griglia con quattro immagini 2×2 che rappresentano altrettante diverse interpretazioni dell’IA in linea con l’input di partenza. Sotto l’immagine visibile nel flusso della chat insieme a quanto prodotto dagli altri utenti compaiono due file di pulsanti: con la prima, U1 – U2 – U3 – U4, si sceglie quale immagine delle quattro ingrandire tramite l’upscaling (1024 x 1024 pixel), mentre con la seconda, V1 – V2 – V3 – V4, si ottengono varianti di stili diversi rispetto all’immagine generata in prima istanza.

Va da sé che più il prompt sia completo e preciso, maggiore è la probabilità di ricavare un risultato visivo affine a quanto sperato. Per questo il nodo centrale dell’intero processo è riuscire a interagire con l’intelligenza artificiale. Costruire una relazione con una macchina appare l’apice dell’astrattismo, in realtà ci sono una serie di dettami utili per incrementare l’efficacia delle risposte artificiali. Digitare parole di ampio respiro e facile comprensione è un buon modo per iniziare, aggiungere lo stile artistico che si intende ottenere per l’immagine significa semplificare il lavoro dell’algoritmo.

Apocalittici e integrati, opposte visioni all’evoluzione tecnologica che ridisegna il ruolo dei professionisti dell’immagine

La facilità d’accesso e di utilizzo ai programmi di intelligenza artificiale generativa TTI aprono una frontiera nuova, ancora da esplorare e piena di interrogativi. Con l’IA che crea l’immagine al posto nostro, qual è il contributo umano? Con la moltiplicazione di tool gratuiti e intuitivi (che col tempo continueranno a migliorare nei dettagli delle immagini, per ora talvolta fuorvianti, ma anche nel trasformare testi in clip e modelli tridimensionali) le immagini artificiali su misura ridurranno spazi e opportunità di artisti, illustratori e fotografi? Prodotti grafici generati dall’IA si possono vendere? E chi deve essere considerato l’autore? Le eventuali violazioni del diritto d’autore come vanno regolate? E le modifiche apportate alla creazioni dell’IA cosa cambiano nelle valutazioni della stessa?

Il momento di transizione che stiamo attraversando è foriero di atteggiamenti e visioni contrastanti, come dimostrano entusiasmo e proteste successive alla vittoria di un’immagine generata dall’IA del concorso artistico Colorado State Fair. A scatenare i due estremi rappresentati dalla “morte dell’arte” e “dall’inizio di una nuova era” c’è Jason Allen, l’autore della discussa opera d’arte nata su Midjourney, poi modificata via photoshop e migliorata con una risoluzione più alta tramite Gigapixel AI. Quanto alla salvaguardia del copyright, va segnalato la disponibilità di strumenti come Have I Been Trained, sito che consente di esplorare dataset con miliardi di immagini pescate online per rintracciare eventuali creazioni (anche testuali) utilizzate in maniera indebita per addestrare un generatore di immagini AI. E nel caso scegliere se lasciar fare o fermare il processo.

Come succede spesso di fronte a innovazioni in grado di rompere schemi immutati nel tempo e delineare nuovi paradigmi, l’intelligenza artificiale generativa spariglia le carte e ripropone la divisione in apocalittici e integrati di echiana memoria. È successo con la comparsa dei computer, con lo sviluppo della grafica digitale e tante altre volte in passato come continuerà ad accadere in futuro. La storia insegna che rifiutare l’avanzamento tecnologico è spesso controproducente, poiché chi si muove prima si assicura l’opportunità di sfruttare un servizio ancora non di massa e utile per accelerare, arricchire e diversificare il flusso lavorativo. Nel caso specifico, l’intelligenza artificiale generativa ha il potenziale per rivelarsi un alleato degli artisti, perché se il processo è merito del software, il risultato è il prodotto di una proficua gestione del mezzo. E questa, per ora, può garantirla solo la mente umana.

Alessio Caprodossi per Zampediverse | Giornalista freelance, esperto di tecnologia e consulente per aziende e progetti editoriali, collabora con testate italiane e internazionali come Panorama, Mashable, Esquire, 4i-Mag.