Oysterbox

martedì, 27 febbraio 2024

Sora

Open AI, quelli di Chat-GPT e Dall-E, una decina di giorni fa ha annunciato Sora, un nuovo modello di intelligenza artificiale generativa in grado di creare dei video lunghi fino a un minuto partendo da un semplice testo descrittivo.
Al momento questa nuova applicazione AI non è aperta al pubblico e i soli ad avere il privilegio di poterla usare sono degli esperti di sicurezza e un gruppo di "artisti" selezionati che hanno il compito di testarla e fornire il loro contributo per migliorarla.
Dai video pubblicati sul sito ufficiale sono rimasto sbalordito. Ovviamente già da qualche mese esistono delle AI in grado di generare video, tipo Pika oppure Runaway, ma paragonandole a queste, Sora - almeno vedendo i video realizzati - è davvero di un altro livello qualitativo.

Video generato da Sora usando il seguente prompt:
A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

Che dire, è innegabile che aspetti con trepidante attesa il momento in cui questo strumento sara accessibile. Per me che in passato mi sono divertito a realizzare dei video per il mio progetto musicale mi si apre un mondo.
Ovviamente, i tipi di Open Ai sono consapevoli dei rischi che Sora può comportare e probabilmente è per questo che non lo hanno ancora reso pubblico. Se infatti un sistema del genere per i creativi può diventare un strumento davvero rivoluzionario c'è sempre il pericolo che alcuni lo usino per creare video ingannevoli con l'intento di diffondere informazioni false.
La crescita della tecnologia basata sui modelli di intelligenza artificiale è davvero esponenziale ma se da una parte ne sono affascinato dall'altra non posso che essere un tantinello spaventato all'idea di ritrovarmi un giorno al cinema un film realizzato completamente dall'AI magari con il volto e l'interpretazione di un famoso attore defunto. Altro che Black Mirror. Speriamo che questa emozione non diventi panico.
Staremo a vedere.

Tecnologia

mercoledì, 16 novembre 2022

Chat GPT

Da un paio di settimane il mondo di internet e della tecnologia è in fibrillazione.
La startup OpenAi - la società di ricerca sull’intelligenza artificiale di San Francisco che ha realizzato il generatore di immagini DALL-E 2 - ha rilasciato Chat GPT, un modello di intelligenza artificiale in grado di generare dei testi su richiesta simulando una conversazione e dialogando come farebbe un essere umano per rispondere a quasi tutte le nostre domande in pochi secondi.

Chat GPT è un chatbot addestrato su una grande quantità di dati di testo, da internet a libri di ogni tipo, che gli consente di comprendere e generare un testo su una vasta gamma di argomenti con elevata precisione. Non solo, durante la nostra conversazione è in grado di rielaborare la sua risposta iniziale con nuove informazioni, ricordandosi e "imparando" da ciò che gli è stato detto in precedenza.

Il suo utilizzo è svariato. Possiamo dirgli di scrivere un articolo su un qualunque argomento, scrivere una poesia, una storia, fare una traduzione, correggere dei testi, degli errori matematici o di programmazione. Io per esempio lo sto utilizzando nel mio lavoro per il debugging del codice e per avere accesso rapido alle informazioni su librerie, funzioni e sintassi che altrimenti richiederebbe numerose ricerche su internet.
Per quanto mi riguarda si tratta di una vera svolta

Attenzione. Chat GPT non è infallibile, tutt'altro. Può fare errori o produrre risposte sbagliate (ma se glie lo fai notare si scusa e si corregge). Inoltre il suo bagaglio culturale, diciamo la sua conoscenza, si ferma a settembre 2021. Questo significa che è ignaro agli eventi in corso e quindi alla domanda su chi è attualmente in testa al campionato di serie A ti risponderà che non può fornirmi tale informazioni invitandomi a consultare siti web dedicati al calcio italiano.

Nonostante i limiti del momento io sono stato completamente rapito da questa applicazione attualmente gratuita. I risultati migliori si ottengono scrivendo in inglese ma è capace di "conversare" in diverse lingue, compreso l'italiano.

Io mi sono divertito a fargli scrivere una filastrocca dell'orrore. Notate come ho aggirato l'ostacolo dopo il suo prima rifiuto legato ad alcuni parametri limitativi che gli sono stati imposti.

Tutto questo in pochi secondi. Sì, alla fine è piatta, manca di estro e imprevedibilità, manca di quello che potremmo definire umanità, ma può essere sempre usata come una bozza di partenza.

Che dire, l'ho già detto e lo ribadisco, il 2022 sara ricordato come l'anno dell'intelligenza artificiale generativa e se questo è solo l'inizio, nei prossimi mesi mi aspetto parecchie cose interessanti.

Tecnologia

venerdì, 28 ottobre 2022

Midjourney

Il 2022 verrà ricordato come l'anno in cui l'intelligenza artificiale è stata in grado di generare immagini partendo da una semplice descrizione testuale. In parole povere scriviamo cosa vogliamo che sia rappresentato e in meno di un minuto appare quello che abbiamo chiesto. In questo video c'è una spiegazione tecnica sul processo di generazioni di immagini.

Simile a Dall-E (di cui ho parlato recentemente) e Stable Diffusion (l'unico gratuito che si installa sul proprio computer ma che richiede una potente scheda grafica - che purtroppo al momento io non dispongo), Midjourney è un generatore di immagini che prende il suo nome dall'omonimo laboratorio di ricerca indipendente che lo ha creato, ed è frutto della creatività di David Holz, co-fondatore anche di Leap Motion.

Midjourney si appoggia su Discord, una piattaforma di comunicazione nata per i gamers che si può installare sul computer oppure utilizzare via browser. Quindi, rispetto al già citato Dall-E, Midjourney non ha una vera e propria interfaccia utente e questo forse all'inizio lo rende un pò ostico. In tutti i modi, andando al seguente link www.midjourney.com e cliccando sul pulsante "sign in" ci si iscrive a Discord venendo poi indirizzati nella chat. A questo punto si clicca su una delle stanze denominate "newbie" e si inserisce il comando "/imagine" scrivendo di seguito il proprio prompt, ovvero il testo descrittivo dell'immagine che si vuole ottenere.

“cute creepy children’s drawing of a monster --q 2”

“young woman eyeing the camera from the entrance of a pub, july 1983, London, ilford 400”

Midjourney ti genera quattro diverse immagini. Sotto compaiono dei pulsanti. I pulsanti U1, U2, U3 e U4 servono a ingrandire l'immagine scelta (Upscaling) mentre i pulsanti V1, V2, V3 e V4 a ottenere una variazione (Variations). Ovviamente per ottenere dei buoni risultati serve scrivere un prompt ben formulato. In rete ci sono numerose guide che di seguito elenco.

Una volta terminato la prova gratuita (inizialmente vengono dati 25 minuti per il rendering) per utilizzare Midjourney sarà necessario sottoscrivere un abbonamento mensile di 10$. Personalmente avrei preferito la soluzione a crediti di Dall-E (ovvero pagare solo quando utilizzo il servizio) perchè l'aggiunta di un altro abbonamento (oltre ai vari Netflix, Spotify etc) mi risulta fastidioso. Un altra seccatura è quella che le immagini generate finiscono nella chat comune e sono in coda con quelle degli altri utenti, questo significa che ogni utente non solo può vedere le "tue creazioni" ma le può utilizzare a suo piacimento. Fortunatamente c'è il modo per ovviare a questo aprendo un nuovo server su Discord per poi spostarci il bot di MidJourney.

Il punto di forza di Midjourney è sicuramente la qualità delle immagini generate e i continui aggiornamenti che lo rendono sempre più potente e funzionale. Con un pò di pazienza e smanettandoci sopra siamo in grado di ottenere dei risultati davvero sorprendenti. Sebbene possa richiedere alcuni tentativi prima di ottenere l'immagine desiderata, il risultato finale è impressionante se confrontato con altri generatori di immagini simili.

Ovviamente c'è poi da affrontare l'aspetto etico. La domanda che ci si pone è se l'immagine ottenuta sia davvero una propria creazione o solo della macchina che l'ha generata? Se il prodotto creativo e alla portata di tutti, se chiunque può produrre una illustrazione, una fotografia o un disegno con lo stile di un famoso pittore o di un artista contemporaneo, non c'è forse il pericolo che gli illustratori, i grafici e i fotografi da cui la "macchina" prende "ispirazione" e a cui non viene dato nessun credito, vengano con il tempo rimpiazziati dall'AI? E se così fosse in un futuro l'AI da chi prenderebbe ispirazione se non da se stessa?

Singolare la notizia che un immagine generata da Midjourney e stampata su tela abbia vinto un concorso d'arte in Colorado alimentando tutte le polemiche del caso.

In definitva, tralasciando l'aspetto etico, da semplice fruitore e grafico, ammetto di essere affascinato dall'evoluzione tecnologica che stiamo vivendo e sono convinto che finchè questi strumenti vengono usati come mezzo per ottenere qualcosa, ovvero come supporto a un progetto e non come fine ultimo, possono offrire interessanti opportunità al processo creativo.

Tecnologia

mercoledì, 31 agosto 2022

Dall-E

Dall-E (pronunciato "Dally") è un servizio online a pagamento che consente di generare delle immagini scrivendo un semplice testo. Confusi?
Partiamo dall'inizio.
Dall-E è stato sviluppato da OpenAI, una organizzazione non profit fondata nel 2015 da Elon Musk (che l'ha abbandonata nel 2018), Sam Altman e altri imprenditori di spicco. Finanziata dal 2019 da Microsoft, OpenAI si occupa di sviluppare tecnologie di intelligenza artificiale.
Il suo lavoro più noto è probabilmente la creazione di modelli di linguaggio avanzati, come GPT (Generative Pre-trained Transformer), uno strumento che dopo essere stato "addestrato" con una enorme quantità di dati utilizza algoritmi fino a qualche anno fa impensabili che permettono alla "macchina" un apprendimento automatico per generare traduzioni, testo o le risposte alle nostre domande.

DALL-E è basato proprio su GPT-3 (l'attuale versione) ma invece di generare testo è specializzato nella generazione di immagini.
DALL·E è stato addestrato su una vasta quantità di immagini provenienti da Internet a ognuna delle quali gli è stata data una sua corrispondenza testuale. In questo modo ha appreso la corrispondenza tra testo e immagine in modo da poter generare una nuova immagine fornendogli una descrizioni testuale.

In parole povere se scriviamo la frase "un elefante rosa a pois volante", DALL·E può generare un'immagine di un elefante rosa con dei pois che vola. Ma non solo, volendo possiamo dirgli di generare l'immagine in un particolare stile, che sia una foto realistica, un illustrazione in 3d oppure un disegno a matita, ad acquerello o realizzata con qualunque altra tecnica pittorica, come se fosse stata fatta da un particolare artista o addirittura in una determinata epoca. Insomma le possibilità sono veramente infinite.

“Close-up, heart metallic covered with numerous biomechanical cables, filaments and tentacles, detailed, painted, acrylic on canvas, surrealistic horror, dark, mystery, elaborate, accurate, in the style of Dave McKean”

“a fashion photography thin pale blond redhead woman from side with head backwards neck straight back brings a handful of red grape to her mouth in the style of solve sundsbo”

Al momento l'accesso è a invito ma prossimamente andando al seguente link https://openai.com/dall-e-2 ci si potrà iscriversi liberamente. Si ricevono 50 crediti all'iscrizione e poi 15 crediti al mese, il tutto gratuitamente (finiti i crediti se ne potranno acquistare di altri). Ogni credito ti permette di scrivere un testo (prompt) dal quale vengono generate quattro immagini con una risoluzione di 1024x1024 pixel. Oltre a generare l'immagine desiderata descrivendola in maniera testuale puoi caricare una qualunque immagine esistente per ottenere una variazione o sostituire un particolare elemento.
Una delle funzionalità più intriganti introdotta ultimamente è l'outpainting. Caricando una immagine pre-esistente, che sia una foto vera o una immagine create da DALL-E 2 (deve essere quadrata altrimenti il sistema ti costringerla a cropparla) la puoi estendere aggiungendo un altra porzione che manterrà lo stesso stile. Ripetendo questo processo più volte si ottiene delle creazioni davvero particolari e suggestive. Io ho utilizzato questa funzionalità per realizzare questo video https://youtu.be/QBFUDwl-WXM (le immagini sono state generate con DALL·E per poi essere editate in After Effects).

Non so dove ci porterà tutto questo ma la potenzialità dell’Intelligenza Artificiale applicata alla creatività è tanto intrigante quanto sconcertante. Ci sono ancora dei limiti, alcuni sono voluti (tipo le restrizioni affinchè non vengano generati contenuti violenti, pornografici o inappropriati) mentre altri sono dei veri e propri limiti tecnici (non sempre le immagini sono coerenti o realistiche) però se questo è solo l'inizio il viaggio si annuncia parecchio interessante.

Tecnologia