Resumo do Google I/O 2026: sem Veo 4 — mas Gemini Omni e Spark oficializaram a camada de agentes

· Chris Sherman

Por dois meses, toda a indústria de vídeo com IA falou sobre o Veo 4. Ele não foi lançado. O que o Google anunciou no I/O 2026 foi maior e mais estranho: um modelo multimodal unificado chamado Gemini Omni, um agente residente na nuvem 24/7 chamado Spark, um plano AI Ultra de US$ 100 que redefine o piso de preço de consumo, e um sinal claro de que o Google agora vê a camada de agentes como a próxima batalha de plataforma. Aqui está a análise completa.

Sundar Pichai subiu ao palco do Shoreline Amphitheatre ontem e entregou à indústria de vídeo com IA algo que ela não esperava. Não houve Veo 4. Não houve nenhuma manchete com a marca "Veo". No lugar, havia algo estrategicamente mais interessante: Gemini Omni, um modelo multimodal que lida nativamente com geração de texto, imagem, áudio e vídeo em um único sistema; Gemini Spark, um agente de IA pessoal que vive em uma VM na nuvem e age em seu nome 24 horas por dia; e uma reestruturação de preços que coloca um plano AI Ultra de US$ 100 no centro da aposta de IA de consumo do Google.

A keynote reescreveu o roteiro dos próximos 12 meses de vídeo com IA. Abaixo está tudo o que o Google anunciou, o que isso realmente significa e onde a indústria de vídeo com IA está agora na manhã seguinte.

Gemini Omni: a manchete que ninguém previu

O anúncio mais relevante foi o Gemini Omni — uma nova série de modelos que o Google descreve como o primeiro verdadeiro sistema de geração multimodal unificado da empresa. Onde o lineup anterior do Google separava capacidades entre Veo (vídeo), Imagen (imagem) e outros sistemas encadeados, o Omni lida com geração de texto, imagem, áudio e vídeo nativamente em um único modelo.

O primeiro modelo público no framework Omni é o Omni Flash. Ele aceita entradas combinadas de texto, imagem e áudio e produz vídeo cinematográfico curto com som sincronizado. O Google demonstrou usuários enviando uma imagem estática, dando instruções em voz alta e recebendo de volta uma cena animada com áudio nativo que responde à direção falada. A edição é conversacional — refinar um clipe dizendo o que mudar, em vez de escrever um novo prompt e regenerar do zero.

Três coisas tornam o Omni estrategicamente diferente da linhagem Veo:

  • Um modelo, não uma stack. O Veo 3 já tinha áudio nativo, mas a stack criativa mais ampla do Google ainda dependia de encadear modelos separados para geração de imagem, produção de áudio e edição. O Omni dobra essa corrente. A implicação estratégica é que o Google acredita que o próximo salto de qualidade vem do treinamento conjunto entre modalidades, não de continuar escalando modelos apenas de vídeo.
  • Geração ancorada no mundo. Demis Hassabis posicionou o Omni como construído sobre o trabalho de modelos do mundo do Google DeepMind. O argumento é que o Omni gera vídeo com coerência espacial, temporal e física mais forte porque o modelo subjacente tem uma representação interna do mundo mais rica. Se a saída prova isso na prática é uma pergunta que estaremos medindo no próximo trimestre.
  • Edição como capacidade de primeira classe. O Omni está sendo posicionado não apenas como um gerador, mas como um editor. Refinamento conversacional, trocas de cena e operações estilo remix fazem parte da superfície do produto, não de uma camada externa. Essa é uma mudança significativa na filosofia de produto à qual os concorrentes terão que responder.

O que o Omni atualmente não faz: formato longo. O Omni Flash é formato curto, e o Google foi explícito de que fluxos de produção mais longos e avançados estão planejados, mas ainda não foram lançados. Quem esperava geração narrativa one-shot de 60 segundos ainda está esperando.

Gemini Spark: um agente pessoal 24/7 na nuvem

Se o Omni foi a manchete que a maioria dos comentaristas leu errado, o Spark foi o anúncio mais subestimado.

O Gemini Spark é um agente de IA pessoal que vive em uma VM dedicada do Google Cloud, é executado continuamente e age em seu nome através de produtos Google e uma lista crescente de serviços de terceiros via Model Context Protocol (MCP). A descrição do produto, nas próprias palavras do Google: um agente que pode "reservar restaurantes, fazer um pedido no Instacart e redigir as respostas da sua caixa de entrada enquanto você dorme".

O significado estratégico é difícil de exagerar. Por dois anos, a história de IA de consumo do Google foi o Gemini como chatbot. O Spark é o Google dizendo explicitamente que o chatbot era o enquadramento errado — o enquadramento correto é um agente autônomo que opera através de aplicações e tempo. O agente lê sua caixa de entrada, executa ações nas suas ferramentas, planeja através de serviços e reporta de volta. O usuário descreve resultados; o Spark cuida da execução.

Essa é a mesma tese que a indústria de vídeo com IA vem debatendo no último ano, aplicada à produtividade geral. A camada de agentes não é mais uma aposta de posicionamento de startup. Agora é a aposta de posicionamento do Google.

Preço importa aqui. O Spark está restrito atrás do novo plano AI Ultra de US$ 100/mês e é lançado em beta para assinantes dos EUA na próxima semana. O preço sozinho já sinaliza que o Google acredita haver uma população significativa de usuários dispostos a pagar nove vezes mais que o plano Gemini Pro de US$ 11 para obter um agente que realmente faz coisas.

Gemini 3.5: a atualização de fundação

Sob os anúncios do Omni e do Spark está um refresh do modelo de fundação. O Gemini 3.5 Flash foi lançado ontem no app Gemini, no Search, no Antigravity e na Gemini API. A alegação do Google: ele supera o Gemini 3.1 Pro em benchmarks de programação, agentes e multimodais, rodando a aproximadamente 4x a velocidade de tokens de saída de modelos de fronteira comparáveis.

O Gemini 3.5 Pro foi anunciado, mas ainda não está disponível em geral. Está em testes e é lançado no próximo mês.

O padrão entre Flash, Pro, Omni e Spark é consistente: todo produto que o Google anunciou no I/O foi construído sobre a trilha de capacidades agentivas. Seguimento de instruções mais rápido, contexto efetivo mais longo, melhor uso de ferramentas e execução multi-etapas mais confiável. A camada do modelo está sendo moldada para servir à camada de agentes acima dela.

Antigravity 2.0: a história para desenvolvedores

O Antigravity é a plataforma de desenvolvimento de agentes do Google. Ontem recebeu uma atualização 2.0 focada em orquestração — permitindo que desenvolvedores componham, agendem e supervisionem múltiplos agentes que interagem entre si e com ferramentas externas.

A relevância para o vídeo com IA é indireta, mas real. À medida que mais ferramentas de vídeo com IA migram de wrappers de modelo único para pipelines verdadeiramente orquestrados, a infraestrutura subjacente para executar, monitorar e depurar essas orquestrações torna-se uma dependência fundamental. O Antigravity 2.0 é o Google tentando possuir essa camada de infraestrutura da mesma forma que possui a camada de modelo abaixo.

Se construtores de agentes independentes vão se apoiar na infraestrutura do Google ou construir a sua própria é uma das perguntas em aberto mais interessantes que emergem desta keynote. A resposta determina quanto da economia de agentes o Google captura versus quanto permanece genuinamente aberto.

O plano AI Ultra de US$ 100: um reset do piso de preço

O Google AI Ultra agora começa em US$ 100 por mês, com um plano superior a US$ 200. O plano Ultra anterior era US$ 250. O novo plano de entrada inclui acesso beta ao Gemini Spark, 5x o limite de uso do app Gemini do plano Pro de US$ 20, 20 TB de armazenamento em nuvem e YouTube Premium.

A leitura estratégica é direta: o Google está precificando agressivamente a IA de consumo premium para capturar os early adopters que definirão como um produto agente se sente. A US$ 100/mês, o Spark agora compete diretamente com a parte alta do ChatGPT Pro e dos planos de consumo do Claude. A capacidade de agente é o diferencial — e é uma funcionalidade da qual os concorrentes terão que lançar versões nos próximos 12 meses ou ceder a categoria de agente de produtividade.

Para criadores e operadores, a pergunta relevante é se US$ 100/mês por um agente pessoal acelera de forma significativa o trabalho. A resposta honesta e precoce: depende inteiramente de o beta do Spark cumprir a demo. Demos são demos. Saberemos em 90 dias.

Android XR e Project Aura: a superfície de hardware

O Google também revelou novos dispositivos de "óculos inteligentes", incluindo o Project Aura, os óculos inteligentes de classe XR desenvolvidos em parceria com a Xreal. Pelo menos três parcerias de óculos inteligentes serão lançadas este ano, posicionando o Google entre os Ray-Bans audio-first da Meta e os headsets XR completos.

O ângulo da IA: eles são alimentados pelo Gemini. Contexto visual ao vivo, interação por voz e ação agentiva — todos vestíveis. Para o vídeo com IA, as implicações são a jusante, mas reais. Uma câmera vestível com contexto Gemini se torna um dispositivo de entrada permanente para criação de vídeo, tanto para captura de referência quanto para edição ao vivo em movimento. Estamos a 18 meses disso importar para fluxos de produção. Estamos a zero meses disso importar para demos de consumo.

Android 17: o SO como camada de inteligência

A atualização Android de Sameer Samat posicionou o próprio SO como passando "de um sistema operacional para um sistema de inteligência". O enquadramento — o Gemini entende contexto entre apps, antecipa necessidades e age em nome do usuário — é a mesma tese de camada de agentes aplicada à plataforma móvel.

As funcionalidades concretas importam menos do que o enquadramento. O Google está se comprometendo com um futuro em que a camada SO e a camada de agentes colapsam em uma única stack, tudo rodando em modelos de fundação Gemini. Para desenvolvedores, isso significa que o design de app consciente de agentes não é mais um padrão opcional; é a suposição base em torno da qual o Google está construindo a plataforma.

O que não foi lançado: a ausência do Veo 4

O anúncio esperado mais observado que não aconteceu: Veo 4. Não houve revelação do Veo 4, nem cronograma do Veo 4, nem confirmação explícita de que o Veo está sendo descontinuado em favor da linha Omni.

A leitura mais provável: o Google está consolidando seus esforços de vídeo generativo sob o Omni em vez de continuar desenvolvimentos paralelos do Veo. O Omni Flash está posicionado como o novo ponto de partida. O Veo 3.1 permanece como a opção de grau de produção para casos de uso que o Omni Flash ainda não cobre — particularmente geração de tomada única mais longa, saída 4K e consistência de personagem via ID-embedding, nenhuma das quais o Omni Flash atualmente suporta.

Para a indústria mais ampla de vídeo com IA, isso é uma virada significativa. Dezoito meses de conversa sobre "o que o Veo fará a seguir" foram substituídos por "o que é o Omni". Operadores com automação específica para Veo terão que avaliar se esperam o Omni amadurecer em formato longo, ou mantêm a produção no Veo 3.1 no futuro previsível. Provavelmente ambos, em paralelo, em tipos de conteúdo diferentes.

O que isso significa para operadores de vídeo com IA

Recuando dos anúncios individuais, três coisas mudaram ontem que vão moldar o vídeo com IA no próximo ano.

Primeiro, a estratégia de modelo ficou mais bagunçada de uma forma útil. O Omni é uma aposta multimodal unificada, mas o Omni Flash é apenas formato curto. O Veo 3.1 ainda faz o trabalho pesado para clipes mais longos e resoluções mais altas. Pipelines reais de produção usarão ambos, rotearão entre eles e alternarão dinamicamente conforme o Omni amadurece. A camada de agentes é onde essa lógica de roteamento mora.

Segundo, o pensamento de camada de agentes agora é consenso. O Spark é o Google dizendo em voz alta que o enquadramento de chatbot foi um passo de transição e que o destino é um agente autônomo. Toda equipe de produto de IA de consumo e empresa que vinha debatendo se construía "um assistente" ou "um agente" recebeu uma resposta resolvida. A camada de agentes é para onde a competição se move.

Terceiro, a edição conversacional muda os fluxos dos criadores. A ênfase do Omni em edição no chat — refinar um clipe descrevendo o que mudar — dobra o que costumava ser um processo de dois passos gerar-depois-editar. Para criadores de vídeo com IA, essa é uma simplificação significativa de UX que se espera que os concorrentes igualem. O pipeline da Genra já suporta iteração conversacional; espere que toda plataforma séria de vídeo com IA lance uma versão disso em seis meses.

O que a Genra está fazendo a seguir

Algumas notas honestas sobre para onde a Genra vai daqui.

O Omni Flash será integrado assim que estiver disponível através da Gemini API. A camada de agentes que a Genra vem construindo foi projetada para ser agnóstica de modelo justamente para que adições como o Omni se tornem mudanças de backend, não mudanças de fluxo de trabalho. Os usuários verão melhor saída de formato curto à medida que a lógica de roteamento começar a escolher o Omni Flash para as tomadas em que ele faz melhor. Casos de uso de formato longo, 4K e alta consistência continuam rodando em Veo e Seedance.

O enquadramento do Spark como agente residente na nuvem 24/7 é a validação mais próxima que poderíamos ter pedido da tese da camada de agentes. A Genra é um agente específico de domínio para produção de vídeo. O Spark é um agente de propósito geral para produtividade pessoal. Os dois coexistem confortavelmente — da mesma forma que um agente CRM e um agente de programação coexistem com um assistente de produtividade geral.

O enquadramento competitivo maior: com o Google agora comprometido com a camada de agentes no nível de plataforma, a pergunta para toda startup de vídeo com IA não é mais "os agentes são o futuro" — isso está resolvido. A pergunta é quais agentes específicos de domínio se tornam a escolha confiável em sua categoria. Para vídeo com IA, essa é a pergunta para a qual a Genra está construída para responder.

Principais conclusões

  • O Google I/O 2026 não lançou o Veo 4. O principal anúncio de vídeo foi o Gemini Omni, um modelo multimodal unificado que lida com geração de texto, imagem, áudio e vídeo em um único sistema, com o Omni Flash como primeiro modelo público.
  • O Gemini Spark, um agente pessoal residente na nuvem 24/7 que age através de produtos Google e serviços de terceiros conectados por MCP, é o anúncio estrategicamente mais significativo. Ele compromete o Google com a camada de agentes como próxima batalha de plataforma.
  • O Gemini 3.5 Flash foi lançado ontem; o Gemini 3.5 Pro está em testes para o próximo mês. Toda atualização de fundação foi enquadrada em torno de capacidades agentivas, não apenas inteligência.
  • O AI Ultra foi reprecificado para US$ 100/mês de entrada (US$ 200 plano superior), abaixo do antigo Ultra de US$ 250. O acesso beta ao Spark está restrito ao plano de US$ 100 para assinantes dos EUA na próxima semana.
  • O Antigravity 2.0 expande a plataforma de desenvolvimento de agentes do Google com ferramentas de orquestração — a jogada de infraestrutura para construtores de agentes.
  • Os óculos inteligentes Android XR e Project Aura, mais o enquadramento de "sistema de inteligência" do Android 17, estendem a tese de agentes para as camadas de hardware e SO.
  • O Omni Flash é apenas formato curto. O Veo 3.1 permanece a ferramenta de produção para vídeo mais longo, de resolução mais alta e com consistência de ID. Pipelines reais rotearão entre ambos.
  • A edição conversacional como capacidade de primeira classe no Omni é uma mudança de fluxo que os concorrentes terão que igualar em seis meses.
  • A Genra integra o Omni Flash assim que o acesso via API estiver disponível, com os usuários vendo o salto de qualidade em tomadas curtas roteadas silenciosamente. Trabalho de formato longo, 4K e crítico em consistência continua no Veo e Seedance.

Perguntas frequentes

O Google anunciou o Veo 4 no I/O 2026?

Não. Não houve anúncio do Veo 4. O Google introduziu a série de modelos Gemini Omni no lugar, com o Omni Flash como primeiro modelo disponível publicamente. A interpretação mais provável é que o Google está consolidando o trabalho de vídeo generativo sob o framework Omni em vez de continuar gerações paralelas de Veo.

O que é o Gemini Omni?

O Gemini Omni é a nova série de modelos multimodais unificados do Google, capaz de gerar texto, imagem, áudio e vídeo nativamente a partir de entradas combinadas. O Omni Flash é o primeiro modelo público, focado em vídeo de formato curto com áudio nativo sincronizado e edição conversacional.

O que é o Gemini Spark?

O Gemini Spark é um agente de IA pessoal residente na nuvem 24/7 que roda em uma VM dedicada do Google, integra-se a produtos Google e mais de 30 serviços de terceiros via MCP, e toma ações em nome do usuário — reservando, pedindo, redigindo e gerenciando tarefas. É lançado em beta para assinantes AI Ultra dos EUA na próxima semana.

Quanto custa o Google AI Ultra em 2026?

O novo plano de entrada AI Ultra custa US$ 100 por mês, abaixo de US$ 250. Um plano superior custa US$ 200. O plano de US$ 100 inclui acesso beta ao Gemini Spark, 5x o limite de uso do app Gemini do plano Pro, 20 TB de armazenamento em nuvem e YouTube Premium.

O que é o Gemini 3.5 Flash?

O Gemini 3.5 Flash é o mais recente modelo de fundação de nível rápido do Google, lançado em 19 de maio de 2026. O Google afirma que ele supera o Gemini 3.1 Pro em benchmarks de programação, agentes e multimodais, rodando a aproximadamente 4x a velocidade de saída de modelos de fronteira comparáveis. Disponível no app Gemini, Search, Antigravity e Gemini API.

O que é o Antigravity 2.0?

O Antigravity é a plataforma de desenvolvimento de agentes do Google. A versão 2.0 adiciona ferramentas de orquestração para que desenvolvedores possam compor, agendar e supervisionar múltiplos agentes interagindo. Ele mira a camada de infraestrutura abaixo dos produtos de agente.

O que o Google anunciou sobre óculos inteligentes no I/O 2026?

O Google revelou novos dispositivos "óculos inteligentes" de classe Android XR, incluindo o Project Aura desenvolvido com a Xreal. Pelo menos três parcerias de óculos inteligentes são lançadas no outono de 2026, posicionando o Google entre óculos audio-first e headsets XR completos. Todos alimentados pelo Gemini.

A Genra vai integrar o Gemini Omni?

Sim. A Genra é construída de forma que integrar um novo modelo seja uma mudança de backend e não uma mudança de fluxo de trabalho. O Omni Flash será adicionado à lógica de roteamento do agente assim que estiver disponível através da Gemini API. Os usuários verão melhorias de qualidade na saída de formato curto sem mudar sua forma de trabalhar.

O Veo 3.1 ainda está disponível depois do I/O 2026?

Sim. O Veo 3.1 continua disponível através do Google AI Studio e Vertex AI. Continua sendo a opção de grau de produção para clipes mais longos, saída 4K e casos de uso que precisam de consistência de personagem via ID-embedding — capacidades que o Omni Flash ainda não suporta.

O que o I/O 2026 significa para criadores de vídeo com IA?

Três mudanças. Primeiro, a estratégia de modelo agora abrange Omni para formato curto multimodal unificado e Veo 3.1 para formato longo e alta resolução — pipelines reais rotearão entre ambos. Segundo, o pensamento de camada de agentes agora é consenso no nível de plataforma, não apenas uma aposta de posicionamento de startup. Terceiro, a edição conversacional está se tornando uma capacidade base que todas as ferramentas de vídeo com IA terão que igualar.


Sobre o autor
Chris Sherman cobre tecnologia de vídeo com IA, arquiteturas de agentes e o negócio da produção criativa. Siga @GenraAI para cobertura contínua do panorama de vídeo com IA pós-I/O e da audiência da MiniMax (29 de maio).