Recap Google I/O 2026: niente Veo 4 — ma Gemini Omni e Spark ufficializzano il layer agent

Per due mesi, l'intera industria del video AI ha parlato di Veo 4. Non è uscito. Quello che Google ha annunciato a I/O 2026 è stato più grande e più strano: un modello multimodale unificato chiamato Gemini Omni, un agent residente in cloud 24/7 chiamato Spark, un piano AI Ultra a 100 $ che resetta il livello minimo dei prezzi consumer e un segnale chiaro che Google ora considera il layer agent come la prossima battaglia di piattaforma. Ecco l'analisi completa.

Sundar Pichai è salito sul palco dello Shoreline Amphitheatre ieri e ha dato all'industria del video AI qualcosa che non si aspettava. Niente Veo 4. Nessun titolo brandizzato "Veo". Al suo posto qualcosa di strategicamente più interessante: Gemini Omni, un modello multimodale che gestisce nativamente la generazione di testo, immagine, audio e video in un unico sistema; Gemini Spark, un agent AI personale che vive su una VM cloud e agisce per tuo conto 24 ore al giorno; e una ristrutturazione dei prezzi che mette un piano AI Ultra da 100 $ al centro della scommessa consumer AI di Google.

La keynote ha riscritto la sceneggiatura dei prossimi 12 mesi di video AI. Di seguito tutto ciò che Google ha annunciato, cosa significa davvero e dove si trova ora l'industria del video AI il mattino dopo.

Gemini Omni: il titolo che nessuno aveva previsto

L'annuncio più importante è stato Gemini Omni — una nuova serie di modelli che Google descrive come il primo vero sistema di generazione multimodale unificato dell'azienda. Dove la precedente lineup di Google separava le capacità tra Veo (video), Imagen (immagine) e altri sistemi concatenati, Omni gestisce nativamente la generazione di testo, immagine, audio e video in un solo modello.

Il primo modello pubblico nel framework Omni è Omni Flash. Accetta input combinati di testo, immagine e audio e produce brevi video cinematografici con suono sincronizzato. Google ha dimostrato utenti che caricavano un'immagine fissa, davano istruzioni a voce alta e ricevevano una scena animata con audio nativo che risponde alla direzione parlata. L'editing è conversazionale — affini una clip dicendo cosa cambiare, invece di scrivere un nuovo prompt e rigenerare da zero.

Tre cose rendono Omni strategicamente diverso dalla linea Veo:

Un modello, non uno stack. Veo 3 aveva già audio nativo, ma il più ampio stack creativo di Google si basava ancora sul concatenare modelli separati per generazione immagini, produzione audio ed editing. Omni richiude quella catena. L'implicazione strategica è che Google crede che il prossimo salto di qualità venga dal training congiunto tra modalità, non dal continuare a scalare modelli solo video.
Generazione fondata sul mondo. Demis Hassabis ha inquadrato Omni come costruito sul lavoro dei modelli del mondo di Google DeepMind. Il pitch è che Omni genera video con una coerenza spaziale, temporale e fisica più forte perché il modello sottostante ha una rappresentazione interna del mondo più ricca. Se l'output lo dimostri in pratica è una domanda che faremo benchmarking il prossimo trimestre.
L'editing come capacità di prima classe. Omni è posizionato non solo come generatore ma come editor. Affinamento conversazionale, sostituzioni di scena e operazioni stile remix fanno parte della superficie del prodotto, non di un layer esterno. È uno spostamento significativo nella filosofia del prodotto a cui i concorrenti dovranno rispondere.

Cosa Omni attualmente non fa: il formato lungo. Omni Flash è formato breve, e Google è stata esplicita: workflow di produzione più lunghi e avanzati sono pianificati ma non ancora rilasciati. Chi sperava in una generazione narrativa one-shot da 60 secondi sta ancora aspettando.

Gemini Spark: un agent personale 24/7 nel cloud

Se Omni è stato il titolo che la maggior parte dei commentatori ha letto male, Spark è stato l'annuncio più sottovalutato.

Gemini Spark è un agent AI personale che vive su una VM Google Cloud dedicata, gira in modo continuo e agisce per tuo conto attraverso prodotti Google e una lista in espansione di servizi di terze parti tramite Model Context Protocol (MCP). La descrizione del prodotto, secondo Google stessa: un agent che può "prenotare ristoranti, fare un ordine Instacart e redigere le risposte della tua inbox mentre dormi".

Il significato strategico è difficile da sopravvalutare. Per due anni, la storia consumer AI di Google è stata Gemini come chatbot. Spark è Google che dice esplicitamente che il chatbot era il frame sbagliato — il frame giusto è un agent autonomo che opera attraverso applicazioni e tempo. L'agent legge la tua inbox, agisce nei tuoi strumenti, pianifica attraverso servizi e riferisce. L'utente descrive risultati; Spark gestisce l'esecuzione.

È la stessa tesi che l'industria del video AI sta discutendo da un anno, applicata alla produttività generale. Il layer agent non è più una scommessa di posizionamento di startup. Ora è la scommessa di posizionamento di Google.

Il prezzo conta qui. Spark è bloccato dietro il nuovo piano AI Ultra a 100 $/mese e va in beta per gli abbonati USA la prossima settimana. Solo il prezzo segnala che Google crede ci sia una popolazione significativa di utenti disposti a pagare nove volte di più rispetto al piano Gemini Pro da 11 $ per ottenere un agent che fa davvero le cose.

Gemini 3.5: l'aggiornamento foundation

Sotto gli annunci Omni e Spark c'è un refresh del modello foundation. Gemini 3.5 Flash è stato lanciato ieri nell'app Gemini, in Search, in Antigravity e nella Gemini API. La pretesa di Google: supera Gemini 3.1 Pro su benchmark di coding, agentic e multimodali, girando a circa 4x la velocità di token di output di modelli frontier comparabili.

Gemini 3.5 Pro è annunciato ma non ancora generalmente disponibile. È in test e arriva il mese prossimo.

Il pattern tra Flash, Pro, Omni e Spark è coerente: ogni prodotto che Google ha annunciato a I/O è costruito sul binario delle capacità agentic. Seguito istruzioni più veloce, contesto effettivo più lungo, miglior uso degli strumenti ed esecuzione multi-step più affidabile. Il layer del modello viene modellato per servire il layer agent al di sopra.

Antigravity 2.0: la storia per gli sviluppatori

Antigravity è la piattaforma di sviluppo agent di Google. Ieri ha ricevuto un upgrade 2.0 focalizzato sull'orchestrazione — permettendo agli sviluppatori di comporre, schedulare e supervisionare più agent che interagiscono tra loro e con strumenti esterni.

La rilevanza per il video AI è indiretta ma reale. Man mano che più strumenti video AI passano da wrapper a singolo modello a pipeline orchestrate vere, l'infrastruttura sottostante per eseguire, monitorare e debuggare quelle orchestrazioni diventa una dipendenza fondamentale. Antigravity 2.0 è Google che cerca di possedere quel layer di infrastruttura nello stesso modo in cui possiede il layer del modello sotto.

Se i costruttori indipendenti di agent si appoggeranno all'infrastruttura di Google o costruiranno la propria è una delle domande aperte più interessanti emerse da questa keynote. La risposta determina quanto dell'economia degli agent Google cattura rispetto a quanto rimane genuinamente aperto.

Il piano AI Ultra da 100 $: un reset del prezzo minimo

Google AI Ultra ora parte da 100 $ al mese, con un piano superiore a 200 $. Il piano Ultra precedente era 250 $. Il nuovo livello di ingresso include l'accesso beta a Gemini Spark, 5x il limite d'uso dell'app Gemini del piano Pro a 20 $, 20 TB di storage cloud e YouTube Premium.

La lettura strategica è diretta: Google sta prezzando aggressivamente l'AI consumer premium per catturare gli early adopter che definiranno come si sente un prodotto agent. A 100 $/mese, Spark ora compete direttamente con la fascia alta di ChatGPT Pro e i piani consumer Claude. La capacità agent è il differenziatore — ed è una funzione di cui i concorrenti dovranno rilasciare versioni nei prossimi 12 mesi o cedere la categoria agent di produttività.

Per creator e operator, la domanda rilevante è se 100 $/mese per un agent personale acceleri davvero il lavoro in modo significativo. La risposta onesta e precoce: dipende interamente dal fatto che la beta di Spark sia all'altezza della demo. Le demo sono demo. Lo sapremo tra 90 giorni.

Android XR e Project Aura: la superficie hardware

Google ha anche svelato nuovi dispositivi "occhiali intelligenti", incluso Project Aura, gli smart glasses di classe XR sviluppati in partnership con Xreal. Almeno tre partnership di smart glasses vengono lanciate quest'anno, posizionando Google tra i Ray-Ban audio-first di Meta e i visori XR completi.

L'angolazione AI: sono alimentati da Gemini. Contesto visivo in tempo reale, interazione vocale e azione agentic — tutto indossabile. Per il video AI, le implicazioni sono a valle ma reali. Una telecamera indossabile con contesto Gemini diventa un dispositivo di input permanente per la creazione video, sia per la cattura di riferimento sia per l'editing in tempo reale in movimento. Siamo a 18 mesi dall'impatto sui workflow di produzione. Siamo a zero mesi dall'impatto sulle demo consumer.

Android 17: l'OS come layer di intelligenza

L'aggiornamento Android di Sameer Samat ha posizionato l'OS stesso come trasformazione "da un sistema operativo a un sistema di intelligenza". L'inquadratura — Gemini comprende il contesto tra le app, anticipa i bisogni e agisce per l'utente — è la stessa tesi del layer agent applicata alla piattaforma mobile.

Le funzionalità concrete contano meno dell'inquadratura. Google si sta impegnando in un futuro in cui il layer OS e il layer agent collassano in un unico stack, tutto in esecuzione su modelli foundation Gemini. Per gli sviluppatori, questo significa che la progettazione di app agent-aware non è più un pattern opzionale; è il presupposto di base attorno al quale Google sta costruendo la piattaforma.

Cosa non è arrivato: l'assenza di Veo 4

L'annuncio atteso più seguito che non si è verificato: Veo 4. Nessuna rivelazione di Veo 4, nessuna roadmap di Veo 4 e nessuna conferma esplicita che Veo venga deprecato a favore della linea Omni.

La lettura più probabile: Google sta consolidando i suoi sforzi di video generativo sotto Omni invece di continuare uno sviluppo Veo parallelo. Omni Flash è posizionato come il nuovo punto di partenza. Veo 3.1 resta l'opzione di livello produzione per i casi d'uso che Omni Flash ancora non copre — in particolare generazione single-shot più lunga, output 4K e coerenza del personaggio via ID-embedding, nessuna delle quali è attualmente supportata da Omni Flash.

Per l'industria più ampia del video AI, questo è un pivot significativo. Diciotto mesi di conversazione su "cosa farà Veo dopo" sono stati sostituiti con "cos'è Omni". Gli operator con automazione Veo-specifica dovranno valutare se aspettare che Omni maturi sul formato lungo, o mantenere la produzione su Veo 3.1 nel futuro prevedibile. Probabilmente entrambi, in parallelo, su diversi tipi di contenuto.

Cosa significa per gli operator del video AI

Facendo un passo indietro dai singoli annunci, ieri sono cambiate tre cose che daranno forma al video AI per il prossimo anno.

Primo, la strategia di modello è diventata più disordinata in modo utile. Omni è una scommessa multimodale unificata, ma Omni Flash è solo formato breve. Veo 3.1 fa ancora il grosso del lavoro per clip più lunghe e risoluzioni più alte. Le vere pipeline di produzione useranno entrambi, instraderanno tra loro e cambieranno dinamicamente man mano che Omni matura. Il layer agent è dove vive quella logica di routing.

Secondo, il pensiero a layer agent è ora consenso. Spark è Google che dice ad alta voce che l'inquadratura chatbot è stata un passo di transizione e la destinazione è un agent autonomo. Ogni team prodotto consumer ed enterprise AI che stava dibattendo se costruire "un assistente" o "un agent" ha ricevuto una risposta definitiva. Il layer agent è dove si sposta la competizione.

Terzo, l'editing conversazionale cambia i workflow dei creator. L'enfasi di Omni sull'editing in-chat — affinare una clip descrivendo cosa cambiare — collassa quello che era un processo a due passi genera-poi-modifica. Per i creator del video AI è una semplificazione UX significativa che ci si aspetta che i concorrenti eguaglino. La pipeline di Genra supporta già l'iterazione conversazionale; aspettati che ogni piattaforma video AI seria rilasci una versione di questo entro sei mesi.

Cosa fa Genra dopo

Alcune note oneste su dove va Genra da qui.

Omni Flash sarà integrato non appena disponibile tramite la Gemini API. Il layer agent che Genra ha costruito è stato progettato per essere model-agnostic proprio perché aggiunte come Omni diventino cambiamenti di backend, non cambiamenti di workflow. Gli utenti vedranno un output formato breve migliore man mano che la logica di routing inizia a scegliere Omni Flash per gli shot in cui fa meglio. I casi d'uso a formato lungo, 4K e ad alta coerenza continuano a girare su Veo e Seedance.

L'inquadratura di Spark come agent residente in cloud 24/7 è la validazione più vicina che avremmo potuto chiedere della tesi del layer agent. Genra è un agent domain-specific per la produzione video. Spark è un agent generale per la produttività personale. I due coesistono comodamente — allo stesso modo in cui un agent CRM e un agent di coding coesistono con un assistente di produttività generale.

L'inquadratura competitiva più ampia: con Google ora impegnata sul layer agent a livello di piattaforma, la domanda per ogni startup di video AI non è più "gli agent sono il futuro" — questo è risolto. La domanda è quali agent domain-specific diventano la scelta affidabile nella loro categoria. Per il video AI, è la domanda a cui Genra è costruita per rispondere.

Punti chiave

Google I/O 2026 non ha rilasciato Veo 4. Il titolo principale video è stato Gemini Omni, un modello multimodale unificato che gestisce generazione testo, immagine, audio e video in un unico sistema, con Omni Flash come primo modello pubblico.
Gemini Spark, un agent personale residente in cloud 24/7 che agisce attraverso prodotti Google e servizi di terze parti connessi via MCP, è l'annuncio strategicamente più significativo. Impegna Google sul layer agent come prossima battaglia di piattaforma.
Gemini 3.5 Flash è stato lanciato ieri; Gemini 3.5 Pro è in test per il mese prossimo. Ogni aggiornamento foundation è stato inquadrato attorno alle capacità agentic, non solo all'intelligenza.
AI Ultra è stato riprezzato a 100 $/mese in ingresso (200 $ il piano superiore), in calo dal precedente Ultra a 250 $. L'accesso beta a Spark è limitato al piano da 100 $ per gli abbonati USA la prossima settimana.
Antigravity 2.0 espande la piattaforma di sviluppo agent di Google con strumenti di orchestrazione — la mossa di infrastruttura per i costruttori di agent.
Gli smart glasses Android XR e Project Aura, insieme all'inquadratura "sistema di intelligenza" di Android 17, estendono la tesi degli agent ai layer hardware e OS.
Omni Flash è solo formato breve. Veo 3.1 resta lo strumento di produzione per video più lunghi, ad alta risoluzione e ID-coerenti. Le vere pipeline instraderanno tra entrambi.
L'editing conversazionale come capacità di prima classe in Omni è un cambiamento di workflow che i concorrenti dovranno eguagliare entro sei mesi.
Genra integra Omni Flash non appena l'accesso API è disponibile, con gli utenti che vedono il salto di qualità su shot brevi instradati silenziosamente. Il lavoro a formato lungo, 4K e critico per la coerenza continua su Veo e Seedance.

Domande frequenti

Google ha annunciato Veo 4 a I/O 2026?

No. Non c'è stato alcun annuncio di Veo 4. Google ha invece introdotto la serie di modelli Gemini Omni, con Omni Flash come primo modello disponibile pubblicamente. L'interpretazione più probabile è che Google stia consolidando il lavoro di video generativo sotto il framework Omni invece di continuare generazioni Veo parallele.

Cos'è Gemini Omni?

Gemini Omni è la nuova serie di modelli multimodali unificati di Google, capace di generare testo, immagine, audio e video nativamente da input combinati. Omni Flash è il primo modello pubblico, focalizzato su video a formato breve con audio nativo sincronizzato ed editing conversazionale.

Cos'è Gemini Spark?

Gemini Spark è un agent AI personale residente in cloud 24/7 che gira su una VM Google dedicata, si integra con prodotti Google e oltre 30 servizi di terze parti via MCP, e agisce per conto dell'utente — prenotando, ordinando, redigendo e gestendo task. Viene rilasciato in beta agli abbonati AI Ultra USA la prossima settimana.

Quanto costa Google AI Ultra nel 2026?

Il nuovo livello di ingresso AI Ultra è 100 $ al mese, in calo da 250 $. Un livello superiore è prezzato a 200 $. Il piano da 100 $ include accesso beta a Gemini Spark, 5x il limite d'uso dell'app Gemini del piano Pro, 20 TB di storage cloud e YouTube Premium.

Cos'è Gemini 3.5 Flash?

Gemini 3.5 Flash è l'ultimo modello foundation fast-tier di Google, lanciato il 19 maggio 2026. Google sostiene che superi Gemini 3.1 Pro su benchmark di coding, agentic e multimodali, girando a circa 4x la velocità di output dei modelli frontier comparabili. Disponibile nell'app Gemini, Search, Antigravity e Gemini API.

Cos'è Antigravity 2.0?

Antigravity è la piattaforma di sviluppo agent di Google. La release 2.0 aggiunge strumenti di orchestrazione in modo che gli sviluppatori possano comporre, schedulare e supervisionare più agent interagenti. Punta al layer di infrastruttura sotto i prodotti agent.

Cosa ha annunciato Google sugli smart glasses a I/O 2026?

Google ha svelato nuovi dispositivi "occhiali intelligenti" di classe Android XR, incluso Project Aura sviluppato con Xreal. Almeno tre partnership di smart glasses vengono lanciate nell'autunno 2026, posizionando Google tra gli occhiali audio-first e i visori XR completi. Tutti alimentati da Gemini.

Genra integrerà Gemini Omni?

Sì. Genra è costruita in modo che integrare un nuovo modello sia un cambiamento di backend invece che un cambiamento di workflow. Omni Flash verrà aggiunto alla logica di routing dell'agent non appena disponibile tramite la Gemini API. Gli utenti vedranno miglioramenti di qualità nell'output formato breve senza cambiare il modo in cui lavorano.

Veo 3.1 è ancora disponibile dopo I/O 2026?

Sì. Veo 3.1 resta disponibile tramite Google AI Studio e Vertex AI. Continua a essere l'opzione di livello produzione per clip più lunghe, output 4K e casi d'uso che necessitano di coerenza del personaggio via ID-embedding — capacità che Omni Flash ancora non supporta.

Cosa significa I/O 2026 per i creator del video AI?

Tre cambiamenti. Primo, la strategia di modello ora si estende a Omni per formato breve multimodale unificato e Veo 3.1 per formato lungo e alta risoluzione — le vere pipeline instraderanno tra entrambi. Secondo, il pensiero a layer agent è ora consenso a livello di piattaforma, non solo una scommessa di posizionamento di startup. Terzo, l'editing conversazionale sta diventando una capacità di base che tutti gli strumenti video AI dovranno eguagliare.

Sull'autore
Chris Sherman si occupa di tecnologia video AI, architetture agent e business della produzione creativa. Segui @GenraAI per copertura continua del panorama video AI post-I/O e dell'udienza MiniMax (29 maggio).