Dopo la generazione di risposte testuali e di immagini, era una conseguenza naturale. È arrivato Lumiere: il modello di intelligenza artificiale in grado di generare video. Annunciato da Google insieme al Weizmann Institute of Science e all’Università di Tel Aviv, il nuovo modello di diffusione spazio-temporale può generare brevi video realistici e stilizzati con tanto di opzioni di modifica.
Lumiere è in grado di sintetizzare video che mostrano movimenti realistici e diversificati. Purtroppo il modello AI non si può ancora testare, ma è possibile consultare il documento che contiene una descrizione di questa nuova tecnologia. Il tool funzionerà attraverso la fornitura da parte dell’utente di input di testo nei quali sono incluse le direttive per il video.
Sarà anche possibile caricare un’immagine e aggiungere un input testuale per trasformare l’immagine in un video dinamico. Con la funzionalità inpainting è possibile inserire specifici oggetti per modificare i video con direttive testuali, mentre con Cinemagraph è possibile aggiungere movimento a delle parti di una scena. C’è anche la generazione stilizzata che usa lo stile di un’immagine per la creazione dei video.
Google Lumiere si basa sull’architettura Space-Time U-Net per generare l’intera durata temporale di un video in una sola volta, il che migliora i movimenti. Il modello ha ricevuto un addestramento con un set di dati di 30 milioni di video con relative didascalie di testo e può generare 80 fotogrammi a 16 fps; può produrre video di 5 secondi con una risoluzione di 1024 x 1024. Non può però ancora girare video con inquadrature multiple e transizioni tra scene.