Gemini Omni: cosa ci dice davvero la fuga pre-I/O
· Chris Sherman2 maggio: una stringa di UI. 11 maggio: i primi clip generati. 19–20 maggio: l'annuncio. Sei giorni prima del keynote di Google — ecco cosa sappiamo di Gemini Omni e cosa no.
Una fuga in due atti
Per un modello non ancora annunciato, Gemini Omni ha avuto un preambolo insolitamente ben documentato. La traccia inizia il 2 maggio 2026, quando un utente di X ha individuato una stringa di UI nascosta nella scheda di generazione video di Gemini: «Start with an idea or try a template. Powered by Omni». TestingCatalog l'ha pubblicato lo stesso giorno. La stringa è rimasta lì per nove giorni mentre tutti speculavano.
Poi, l'11 maggio 2026, è caduto il secondo tassello. Clip generati — chiaramente prodotti da qualcosa di diverso dal Veo 3.1 pubblico — sono trapelati da almeno un account Gemini Pro. Due hanno ricevuto più attenzione: una scena di spaghetti in un ristorante sul mare e un professore che svolge dimostrazioni trigonometriche alla lavagna. Entrambi sono stati ripresi da 9to5Google, Android Authority, Chrome Unboxed e una dozzina di altri media in 24 ore.
Il prossimo evento importante è Google I/O 2026, il 19–20 maggio. Quando leggerai questo articolo, mancheranno probabilmente sei giorni. Google ha confermato che Gemini e gli aggiornamenti IA sono all'ordine del giorno. Omni non è stato confermato per nome.
Questo articolo è l'istantanea del 13 maggio — il punto medio dell'intervallo. Cosa è reale, cosa è speculazione, cosa lasciano intendere i clip e cosa monitorare davvero quando inizierà il keynote. Aggiorneremo dopo I/O.
Cronologia in sintesi
| Data | Evento | Affidabilità |
|---|---|---|
| 2 maggio 2026 | Stringa UI «Powered by Omni» scoperta nella scheda video di Gemini | Alta — screenshot in circolazione |
| 2–10 maggio 2026 | Fase di speculazione. Nessun output concreto, ma più media confermano la stringa | Verificato |
| 11 maggio 2026 | Clip trapelano da un account Gemini Pro — soprattutto la scena spaghetti e il professore alla lavagna | Alta — più media riportano in modo indipendente gli stessi clip |
| 11–12 maggio | Stringa UI estesa: «Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more» | Verificato |
| 19–20 maggio 2026 | Keynote Google I/O 2026 — annuncio ufficiale probabile | In programma (non ancora avvenuto) |
Due cose risaltano. Primo, la fuga è avvenuta nel prodotto, non come indiscrezione marketing — Google sembra aver iniziato a distribuire Omni a un piccolo sottoinsieme di utenti Gemini Pro prima dell'annuncio, e il rollout è stato abbastanza visibile da essere catturato. È un segnale molto più credibile di una fuga alla stampa. Secondo, la seconda stringa UI («remix your videos, edit directly in chat, try templates») ti dice che Google la sta inquadrando come prodotto di workflow, non come semplice modello — espressioni come «edit directly in chat» e «remix» sono linguaggio di prodotto consumer, non di benchmark.
Cosa mostrano davvero i due clip
I due clip trapelati sono l'informazione più concreta disponibile oggi. Entrambi erano brevi — meno di 10 secondi — e generati da prompt testuali in quella che gli utenti hanno descritto come l'interfaccia web di Gemini Pro.
Clip 1: la scena degli spaghetti
Un commensale in un ristorante sul mare mangia spaghetti, luce di tramonto, atmosfera sonora mediterranea. Quel che colpisce non è la fedeltà visiva — è competitiva con quanto Veo 3.1 già fa. Quel che colpisce è che gli spaghetti si comportano come spaghetti. Si arrotolano sulla forchetta, ricadono con peso, il movimento forchetta-bocca rispetta la continuità. Le scene alimentari ad alta componente fisica sono storicamente un punto debole dei modelli video — posate e cibo si deformano in modo innaturale, i filamenti si spezzano, la gravità smette di funzionare a metà percorso. Il clip trapelato gestisce tutto in modo pulito, il che suggerisce che il modello sottostante abbia un prior fisico nettamente migliore del Veo 3.1 pubblico.
Clip 2: il professore alla lavagna
Un professore svolge dimostrazioni trigonometriche alla lavagna. La camera tiene sulla lavagna mentre scrive. Qui ciò che interessa è il rendering di testo e formule. I modelli video IA sono notoriamente pessimi col testo coerente — le lettere si spostano tra i frame, le equazioni diventano grammelot a metà strada, qualunque cosa sembri matematica tipicamente crolla. Il clip trapelato mostra notazione matematica riconoscibile resa in modo coerente attraverso i frame, con la mano del professore che traccia correttamente. Non è un miglioramento marginale; è una categoria rotta da due anni.
Cosa implicano i due clip insieme
Se i clip trapelati sono rappresentativi — e quel «se» va preso sul serio, perché Google semina naturalmente clip che mostrano l'output migliore — allora Omni punta a due delle debolezze note più dure del video IA: fisica complessa e rendering del testo su schermo. Sono gli stessi due punti che sia il ritiro di Sora 2 sia il lancio di HappyHorse 1.0 hanno indicato come prossima frontiera. (Per la narrativa canonica, vedi il nostro bilancio di metà 2026.)
La scelta dei contenuti demo conta. Una scena di spaghetti e una lezione di matematica non sono esibizioni estetiche — sono esibizioni di capacità mirate esattamente sulle cose che la concorrenza non riesce a fare in modo affidabile. Questo ti dice contro cosa Google sta posizionando Omni.
Tre teorie rivali su cosa sia davvero Omni
È qui che vive la speculazione pre-I/O. Ci sono tre interpretazioni plausibili di cosa rappresenti Omni, con implicazioni molto diverse per il resto del mercato.
Teoria 1: un rebranding consumer di Veo 3.1
L'interpretazione più semplice: Omni è solo un nuovo nome pubblico per l'attuale pipeline Veo dentro l'app Gemini consumer. Lo stack di generazione sottostante non cambia. Google ritira il marchio «Veo» dalla superficie consumer, lo mantiene per l'API enterprise Vertex AI e dà all'esperienza chat Gemini un nome di prodotto unificato.
Pro: Google ha una storia di rinominazioni. Bard → Gemini ne è stato l'esempio più visibile. Il branding consumer attorno a «Veo 3.1» è sempre stato goffo — i numeri di versione non funzionano per utenti non tecnici. Le stringhe UI («remix your videos, edit directly in chat») enfatizzano il workflow, non la novità del modello.
Contro: I clip trapelati mostrano capacità visibilmente superiori a Veo 3.1 pubblico, specie su fisica e rendering del testo. Un puro rebranding non produrrebbe un output visibilmente diverso. A meno che Google non stia spedendo silenziosamente un Veo 3.2 sotto il marchio Omni, questa teoria non spiega i clip.
Teoria 2: un modello video separato addestrato in Gemini
L'interpretazione intermedia: Omni è un nuovo modello video addestrato dentro la linea Gemini — separato dalla pipeline Veo di DeepMind — e si colloca accanto a Veo nella roadmap di Google invece di sostituirlo. Gemini consumer usa Omni; i clienti enterprise su Vertex AI continuano a usare Veo. Entrambi evolvono in parallelo.
Pro: Google ha mantenuto storicamente linee di modelli parallele (Gemini per consumer, linee di ricerca separate per enterprise). Il salto di capacità nei clip trapelati è coerente con un modello addestrato su un mix di dati e architettura diversi da Veo 3.1.
Contro: Mantenere due linee di modelli video top è costoso. Il ritiro di Sora 2, coperto nel nostro post-mortem, ha mostrato che persino OpenAI non poteva sostenere un singolo modello video consumer in scala; gestirne due sarebbe una scelta strategica strana per Google.
Teoria 3: un modello omni unificato (immagine + video + audio in un singolo forward pass)
L'interpretazione più ambiziosa: Omni è il primo membro di una nuova famiglia di modelli addestrata in Gemini che gestisce generazione di immagini, video e audio sincronizzato in un singolo passaggio in avanti. È l'architettura inaugurata da HappyHorse 1.0 quando ha conquistato la #1 dell'Arena in aprile con un modello unificato audio-video da 15 miliardi di parametri. In questa teoria, Omni sostituisce sia l'attuale pipeline Veo (video) sia lo stack Nano Banana Pro (immagine) con un unico generatore multimodale.
Pro: Il nome stesso del prodotto — «Omni» — implica fortemente una portata multimodale. L'inquadramento UI («our new video model, remix your videos, edit directly in chat») suggerisce un'unica superficie di prodotto che copre più modalità. La pressione competitiva da HappyHorse per spedire un'architettura unificata è acuta; Google sta perdendo la cima Arena da aprile. (Dettagli architetturali nella nostra recensione di HappyHorse 1.0.)
Contro: I modelli omni unificati sono tecnicamente difficili, e Google è stato più conservativo di ByteDance o Alibaba nello spedire architetture nuove al consumer. Sostituire due pipeline di produzione simultaneamente è una mossa ad alto rischio per un keynote pubblico.
Dove punta il consenso
Gli osservatori del settore si dividono grossolanamente 30/30/40 sulle tre teorie. La lettura più probabile, basata sull'inquadramento UI e sul salto di capacità, è un ibrido tra Teoria 2 e Teoria 3: un nuovo modello addestrato in Gemini che gestisce almeno video e audio in modo unificato, con Veo mantenuto vivo su Vertex AI per clienti enterprise che hanno bisogno di stabilità. Tra sei giorni lo sapremo.
Perché conta oltre Google
Omni non è interessante perché Google sta rilasciando un nuovo modello video. Nuovi modelli video escono ogni mese ormai. Omni è interessante per cosa significherebbe se la Teoria 3 fosse giusta.
L'industria del video IA ha trascorso i primi quattro mesi del 2026 vedendo dispiegarsi la tesi del modello omni unificato. Sora 2 è collassato in 84 giorni con un'architettura a pipeline separate. HappyHorse 1.0 ha preso la #1 di Arena in 48 ore con un'architettura unificata da 15B parametri. Seedance 2.0 produce audio e video insieme tramite un transformer a doppio ramo. Il centro di gravità tecnico si è spostato verso modelli unificati per un trimestre intero, e l'unico grande laboratorio occidentale che non aveva risposto era Google.
Se Omni è un vero modello unificato — Teoria 3 — allora Google sta agganciando il trend architetturale stabilito dai leader cinesi. Ne derivano tre effetti a valle:
- Il marchio Veo si consolida o si ritira. Gestire un Veo a pipeline separate accanto a un Omni unificato per più di 12 mesi non ha senso. I clienti enterprise su Vertex AI si aspetterebbero un percorso di migrazione.
- Il divario architetturale Occidente/Cina si chiude. La narrazione «i modelli cinesi hanno un vantaggio strutturale perché hanno aperto la strada alle architetture unificate» si indebolisce non appena Google spedisce la propria.
- La differenziazione a livello di modello continua a comprimersi. Se quattro dei top sei modelli usano architetture unificate audio-video, il layer modello si commodifica ulteriormente e il layer agent diventa l'unico punto di differenziazione significativo. È la tesi centrale del nostro bilancio di metà 2026, e Omni la estenderebbe.
Se Omni è solo un rebranding (Teoria 1), gran parte di questo non si applica. Ma i clip trapelati rendono la Teoria 1 la meno probabile delle tre.
Cosa monitorare a I/O — una checklist in sei punti
Quando il keynote inizierà il 19 maggio, ecco cosa ti dirà quale teoria era giusta. Nessun segnale da solo è definitivo, ma insieme formano un quadro chiaro.
Segnale 1: Google dice ancora «Veo» sul palco del keynote?
Se Veo è vistosamente assente dal segmento Gemini rivolto al consumer, è una prova che Veo viene ritirato come marchio consumer. Se Veo è ancora menzionato accanto a Omni, i due coesistono (Teoria 2). Se entrambi sono menzionati ma Veo è posizionato solo per enterprise, la migrazione inizia.
Segnale 2: Omni genera audio nella stessa chiamata del video?
Una singola chiamata API che restituisce video + audio sincronizzati è la firma tecnica di un modello omni unificato (Teoria 3). Due chiamate API separate — prima video, poi una seconda per la sintesi audio — è il pattern architetturale più vecchio. La demo del keynote probabilmente lo mostrerà chiaramente.
Segnale 3: Omni gestisce anche la generazione di immagini?
Se Omni è posizionato solo come nuovo modello video, l'ambito è più stretto. Se Omni assorbe la generazione di immagini — sostituendo Nano Banana Pro nella superficie chat di Gemini — è una prova della tesi multimodale più ampia. Osserva se le demo di generazione di immagini al keynote sono accreditate a «Omni» o restano marchiate Nano Banana / Imagen.
Segnale 4: c'è un'API dal giorno uno?
Veo 3.1 ha lanciato su Vertex AI il giorno uno del suo keynote. Se Omni esce con accesso API pubblico e prezzi il 19–20 maggio, è posizionato per uso in produzione immediato. Se esce solo consumer con accesso API «più avanti quest'anno», Google segue la rotta retail-first di Sora 2 — e abbiamo già visto che non funziona economicamente in scala.
Segnale 5: qual è la struttura dei prezzi?
Il benchmark attuale dei prezzi API top-tier va da circa 0,05 $/sec (HappyHorse 1.0) a 0,50 $/sec (Veo 3.1). Se il prezzo API di Omni si avvicina a HappyHorse, Google compete sul costo; se si avvicina a Veo 3.1, sulla qualità. La scelta ti dirà quale mercato Google prioritizza.
Segnale 6: come si incastra Project Astra?
Google demo Project Astra — il suo assistente multimodale in tempo reale — a ogni I/O dal 2024. Se Astra diventa prodotto il 19–20 maggio e usa Omni sotto, quella è la tesi «omni» più ampia: non solo un modello video ma una superficie IA multimodale in tempo reale attraverso l'intera esperienza Gemini.
Cosa significa per il tuo workflow
Tre punti pratici in attesa del keynote.
Se sei un creator che usa Gemini direttamente
Non cambiare nulla per ora. Omni nell'app Gemini consumer, se uscirà la prossima settimana, sostituirà o aggiornerà semplicemente l'esperienza di generazione video esistente. La formula «remix your videos, edit directly in chat» suggerisce lo stesso workflow guidato da chat che già conosci, con un modello più smart sotto. Attendi l'annuncio, prova le nuove capacità, aggiorna i prompt in base a cosa cambia davvero.
Se costruisci su Vertex AI
Tieni d'occhio Segnale 1 (marchio Veo) e Segnale 4 (disponibilità API). Se Veo viene ritirato come marchio consumer ma resta su Vertex AI per enterprise, la tua integrazione esistente è al sicuro. Se Omni sostituisce completamente Veo su Vertex AI, hai davanti una migrazione API. In entrambi i casi, costruisci l'integrazione attraverso un layer agent o di orchestrazione, così il cambio di modello è un cambio di configurazione, non di codice.
Se gestisci uno stack agent multi-modello
È la situazione che abbiamo sostenuto nei nostri ultimi pezzi. (Vedi i sei spostamenti e i colli di bottiglia del formato lungo.) Un agent multi-modello tratta Omni come un altro generatore da instradare — accanto a Veo, Seedance, HappyHorse, Kling, Luma e Runway. Il layer agent è dove vive la domanda produttiva: quale inquadratura in questo video da 60 secondi viene instradata a quale modello. L'annuncio di Omni aggiunge un'altra opzione alla tabella di routing; non cambia l'architettura che stai eseguendo.
È esattamente per questo che abbiamo mantenuto lo stack di Genra agnostico al modello: il layer modello continua a muoversi, il layer agent è ciò che si capitalizza.
Conclusione, sei giorni prima di I/O
Quello che sappiamo: esiste un vero modello chiamato Omni dentro la scheda video di Gemini, produce output visibilmente migliore di Veo 3.1 pubblico su fisica e testo, e Google lo inquadra come prodotto di workflow basato su chat. Quello che non sappiamo: se sia un rebranding, un nuovo modello parallelo o un sistema omni-modalità unificato.
La previsione singola più utile è la terza. Se la Teoria 3 è giusta, il divario architetturale Occidente/Cina si chiude il 19 maggio, e l'industria torna a una corsa multipolare in cui tutti i grandi laboratori girano architetture unificate audio-video. Se la Teoria 3 è sbagliata, Google resta indietro rispetto alla frontiera architetturale fissata da HappyHorse — e il quadro competitivo resta come dopo il lancio HappyHorse di aprile.
In entrambi i casi, la conclusione pratica è la stessa: il layer modello continua a muoversi, il layer agent è dove dovresti costruire. Omni non cambia questo. O lo rafforza (aggiungendo un altro modello commodity alla tabella di routing) o non muove l'ago (se è un rebranding). I team che hanno già spostato la differenziazione sull'infrastruttura agent assorbiranno tutto ciò che Google annuncerà il 19 come un aggiornamento di configurazione. I team che ancora puntano su un singolo modello-eroe passeranno il resto del Q2 a riadattarsi.
Aggiorneremo questo pezzo dopo il keynote con ciò che verrà effettivamente annunciato.
FAQ
Cos'è Gemini Omni?
Gemini Omni è un modello di generazione video IA non annunciato emerso tramite due fughe dentro l'interfaccia Gemini di Google — una stringa UI individuata il 2 maggio 2026 e clip video generati trapelati da un account Gemini Pro l'11 maggio. Google non ha ufficialmente confermato Omni al 13 maggio. La finestra di annuncio più probabile è Google I/O 2026 il 19–20 maggio.
Gemini Omni sostituirà Veo?
Non confermato. Tre teorie in gioco: Omni è un rebranding consumer di Veo 3.1, Omni è un nuovo modello separato addestrato in Gemini che coesiste con Veo, oppure Omni è un modello omni-modalità unificato che sostituisce sia Veo sia lo stack di generazione di immagini. I clip trapelati suggeriscono capacità superiori all'attuale Veo 3.1 pubblico, il che rende la teoria del puro rebranding la meno probabile.
Cosa mostravano i clip trapelati?
Due clip hanno ricevuto più attenzione: una scena di spaghetti in un ristorante sul mare (notevole per la gestione del movimento alimentare ad alta componente fisica) e un professore che svolge dimostrazioni trigonometriche alla lavagna (notevole per il rendering coerente di notazione matematica attraverso i frame). Entrambe le aree sono punti deboli riconosciuti per i modelli video.
Quando sapremo cosa è davvero Omni?
Google I/O 2026 il 19–20 maggio. Monitora sei segnali: se Veo è ancora menzionato, se l'audio è generato nella stessa chiamata del video, se è inclusa la generazione di immagini, se c'è API al giorno uno, qual è il prezzo, come si incastra Project Astra.
Cosa dovrei fare da creator prima dell'annuncio?
Non cambiare nulla per ora. Se usi Gemini consumer, attendi il lancio. Se sei su Vertex AI, sorveglia il percorso di migrazione API. Se gestisci uno stack agent multi-modello, tratta Omni come un altro generatore da instradare.
Come si confronta Omni con HappyHorse 1.0?
HappyHorse 1.0 ha preso la Artificial Analysis Video Arena #1 in 48 ore quando è stato lanciato il 7 aprile 2026, con architettura unificata audio-video da 15B parametri. Se Omni è anche un modello omni unificato, rappresenta la prima risposta di Google a quella direzione architetturale.
Sull'autore
Chris Sherman copre tecnologia video IA e flussi di produzione creativa. Segui @GenraAI per copertura in diretta durante il keynote Google I/O 2026 il 19–20 maggio.