Tra cautela degli addetti ai lavori ed esperimenti, progrediscono i risultati dei software che generano immagini
Da alcune settimane circolano sui social network immagini prodotte da un’intelligenza artificiale. Si tratta di fotografie o disegni, talvolta ben riusciti e talaltra un po’ confuse, prodotte da un modello di linguaggio conosciuto come Generative Pre-trained Transformer (GPT), capace di generare immagini e testi sulla base di input testuali.
Come funziona il modello GPT?
Questi modelli devono essere “allenati” dai ricercatori, che hanno il compito di scegliere, curare e inserire nel sistema i documenti e i testi che l’intelligenza artificiale analizzerà e da cui imparerà i meccanismi di scrittura o di elaborazione dell’arte umana.
Ciò che caratterizza GPT è la relativa indipendenza: una volta ricevuta la mole (considerevole) di documenti sui cui basarsi, il modello di linguaggio si evolve quasi come se imparasse da solo. I modelli precedenti, per esempio, differivano da GPT perché necessitavano di indicazioni e supervisione.
A svilupparlo è stata l’azienda non-profit statunitense OpenAI, co-fondata nel 2015 da Sam Altman e Elon Musk, il cui scopo è rendere la ricerca più democratica nel tempo. Nel 2019 la società ha presentato la seconda interazione del progetto, nota come GPT-2, in grado di generare testi credibili. La qualità della produzione dei modelli è migliorata sensibilmente con la versione uscita nel 2020, GPT-3, con cui è possibile creare testi indistinguibili da quelli umani. Già dal documento di presentazione di GPT-3 si evince come la sua capacità di creare diversi paragrafi di contenuto sintetico, difficili da distinguere dai testi scritti dagli esseri umani, è considerata dai ricercatori stessi come «preoccupante».
GPT-3, DALL-E e le immagini
Una versione particolare di GPT-3 è stata invece pensata per «generare immagini a partire da descrizioni testuali» attraverso un dataset di accostamento testo-immagini. Il nome di questo modello è DALL-E, nato dalla crasi tra il nome del pittore surrealista Salvador Dalì e quello di WALL-E, il robottino protagonista di un omonimo film della Pixar. OpenAI, per dimostrare le capacità di questo modello, ha pubblicato alcune immagini che DALL-E ha generato partendo da descrizioni strambe come «una poltrona a forma di avocado» oppure «l’illustrazione di una radice di daikon in tutù che porta a spasso un cane».
DALL-E è stato poi aperto al contributo di alcuni ricercatori, che hanno messo alla prova le sue capacità inserendo i cosiddetti prompt o input testuali, i cui risultati sono visibili su Twitter all’hashtag #dalle2.
Il modello di intelligenza artificiale è riuscito a produrre immagini sulla base di scelte piuttosto precise, rispondendo in maniera convincente anche a domande insolite quali «come sarebbe stato l’iPhone progettato da Leonardo da Vinci?».
DALL-E presenta, tuttavia, alcuni limiti come la tendenza a reiterare pregiudizi sessuali e razziali nelle immagini che produce a causa anche del materiale letterario e iconografico originario su cui questo modello basa il suo apprendimento.
Il futuro delle intelligenze artificiali generative
Non solo GPT e DALL-E: lo scorso maggio Google ha presentato Imagen, la tecnologia in grado di produrre risultati simili, e talvolta superiori, a quelli di DALL-E. Uno degli esempi presentati da Google è un modello che mostra come l’intelligenza artificiale abbia trasformato in immagini richieste surreali come «una scultura trasparente di un’anatra fatta di vetro». Sappiamo ancora poco di Imagen e i primi risultati potrebbero comunque non rappresentare la media dei risultati prodotti dal sistema.
Quel che è certo è che questi modelli rappresentano solo l’inizio di una generazione di intelligenze artificiali generative e che, in un futuro a breve termine, potremo generare immagini più o meno indistinguibili da fotografie e quadri grazie all’intelligenza artificiale, con ripercussioni artistiche e culturali difficili da prevedere.