Gemini Omni: o que o vazamento pré-I/O realmente revela

· Chris Sherman

2 de maio: uma string de UI. 11 de maio: os primeiros clipes gerados. 19–20 de maio: o anúncio. Seis dias antes do keynote do Google — isto é o que se sabe sobre Gemini Omni, e o que não.

Um vazamento em dois atos

Para um modelo que ainda não foi anunciado, Gemini Omni teve um pré-anúncio incomumente bem documentado. O rastro começa em 2 de maio de 2026, quando um usuário do X encontrou uma string de UI escondida na aba de geração de vídeo do Gemini: «Start with an idea or try a template. Powered by Omni.» O TestingCatalog publicou no mesmo dia. A string ficou ali nove dias enquanto todos especulavam.

Depois, em 11 de maio de 2026, o segundo sapato caiu. Clipes gerados — claramente produzidos por algo diferente do Veo 3.1 público — vazaram de pelo menos uma conta Gemini Pro. Dois tiveram mais atenção: uma cena de espaguete em um restaurante à beira-mar e um professor desenvolvendo demonstrações trigonométricas em um quadro-negro. Ambos foram replicados por 9to5Google, Android Authority, Chrome Unboxed e uma dúzia de outros veículos em 24 horas.

O próximo grande evento é Google I/O 2026, em 19–20 de maio. Quando você ler isto, faltarão provavelmente seis dias. O Google confirmou que Gemini e atualizações de IA estão na pauta. Não confirmou Omni pelo nome.

Este artigo é o instantâneo de 13 de maio — o meio do intervalo. O que é real, o que é especulação, o que os clipes sugerem e o que de fato observar quando o keynote começar. Atualizaremos depois do I/O.

Cronologia em resumo

DataEventoConfiabilidade
2 de maio de 2026String de UI «Powered by Omni» descoberta na aba de vídeo do GeminiAlta — captura em circulação
2–10 de maio de 2026Fase de especulação. Sem saída concreta, mas vários veículos confirmam a stringVerificado
11 de maio de 2026Clipes vazam de uma conta Gemini Pro — sobretudo a cena espaguete e o professorAlta — múltiplos veículos relatam os mesmos clipes independentemente
11–12 de maioString UI ampliada aparece: «Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more»Verificado
19–20 de maio de 2026Keynote Google I/O 2026 — anúncio oficial provávelProgramado (ainda não ocorrido)

Duas coisas se destacam. Primeiro, o vazamento ocorreu dentro do produto, não como indiscrição de marketing — o Google parece ter começado a implantar Omni a um pequeno subconjunto de usuários Gemini Pro antes do anúncio, e o rollout foi visível o suficiente para ser capturado. É um sinal muito mais crível do que vazamento à imprensa. Segundo, a segunda string UI («remix your videos, edit directly in chat, try templates») diz que o Google está enquadrando isso como produto de workflow, não apenas um modelo — expressões como «edit directly in chat» e «remix» são linguagem de produto consumer, não de benchmark.

O que os dois clipes realmente mostram

Os dois clipes vazados são a informação mais concreta disponível agora. Ambos eram curtos — menos de 10 segundos — e foram gerados a partir de prompts de texto no que usuários descreveram como a interface web do Gemini Pro.

Clipe 1: a cena do espaguete

Um cliente em restaurante à beira-mar comendo espaguete, luz de pôr do sol, ambiente sonoro mediterrâneo. O notável não é a fidelidade visual — compete com o que o Veo 3.1 já faz. O notável é que o espaguete se comporta como espaguete. Enrola no garfo, cai com peso, e o gesto garfo-à-boca respeita a continuidade. Cenas de comida com alta carga física foram historicamente um ponto fraco para modelos de vídeo — utensílios e comida deformam-se de modo antinatural, fios quebram, a gravidade para de funcionar no meio. O clipe vazado lida com isso de forma limpa, sugerindo que o modelo subjacente tem um prior físico nitidamente melhor que o Veo 3.1 público.

Clipe 2: o professor no quadro-negro

Um professor desenvolvendo demonstrações trigonométricas em um quadro-negro. A câmera fica no quadro enquanto ele escreve. O interessante aqui é a renderização de texto e fórmulas. Modelos de vídeo IA são notoriamente ruins em texto coerente — letras derivam entre quadros, equações viram embromação no meio, qualquer coisa parecida com matemática tipicamente desmonta. O clipe vazado mostra notação matemática reconhecível renderizada de modo consistente ao longo dos quadros, com a mão do professor seguindo corretamente os traços. Não é melhoria menor; é uma categoria quebrada há dois anos.

O que os dois clipes juntos implicam

Se os clipes vazados são representativos — e convém levar esse «se» a sério, pois o Google naturalmente espalharia clipes que mostram a melhor saída — então Omni mira duas das fraquezas conhecidas mais duras do vídeo IA: física complexa e renderização de texto em tela. São os mesmos dois pontos que a retirada do Sora 2 e o lançamento do HappyHorse 1.0 sinalizaram como a próxima fronteira. (Para a narrativa canônica, ver nosso balanço de meados de 2026.)

A escolha do conteúdo demo importa. Cena de espaguete e aula de matemática não são exibições estéticas — são exibições de capacidade direcionadas exatamente ao que os concorrentes não fazem com confiabilidade. Isso diz contra o que o Google está posicionando o Omni.

Três teorias rivais sobre o que Omni realmente é

É onde vive a especulação pré-I/O. Há três interpretações plausíveis do que Omni representa, e elas têm implicações muito diferentes para o restante do mercado.

Teoria 1: rebranding consumer do Veo 3.1

A interpretação mais simples: Omni é apenas um novo nome público para o pipeline Veo existente dentro do app Gemini consumer. A pilha de geração subjacente não muda. O Google retira a marca «Veo» da superfície consumer, mantém-na para a API enterprise Vertex AI e dá à experiência de chat do Gemini um nome de produto unificado.

A favor: O Google tem histórico de renomear coisas. Bard → Gemini foi o exemplo mais visível. O branding consumer em torno de «Veo 3.1» sempre foi desajeitado — números de versão não vendem para usuários não técnicos. As strings UI («remix your videos, edit directly in chat») enfatizam workflow, não novidade do modelo.

Contra: Os clipes vazados mostram capacidade visivelmente superior ao Veo 3.1 público, sobretudo em física e renderização de texto. Rebranding puro não produziria saída visivelmente diferente. A menos que o Google esteja entregando silenciosamente um Veo 3.2 sob a marca Omni, esta teoria não explica os clipes.

Teoria 2: modelo de vídeo separado treinado no Gemini

A interpretação intermediária: Omni é um novo modelo de vídeo treinado dentro da linha Gemini — separado do pipeline Veo da DeepMind — e fica ao lado do Veo no roadmap do Google em vez de substituí-lo. Gemini consumer usa Omni; clientes enterprise no Vertex AI continuam usando Veo. Os dois evoluem em paralelo.

A favor: O Google historicamente manteve linhas paralelas de modelos (Gemini para consumer, linhas de pesquisa separadas para enterprise). O salto de capacidade nos clipes vazados é consistente com um modelo treinado em mistura de dados e arquitetura distintas do Veo 3.1.

Contra: Operar duas linhas top-tier de modelos de vídeo é caro. A retirada do Sora 2, coberta no nosso post-mortem, mostrou que nem mesmo a OpenAI sustentava um modelo de vídeo consumer em escala; operar dois seria uma escolha estratégica estranha para o Google.

Teoria 3: modelo omni unificado (imagem + vídeo + áudio em uma única passagem direta)

A interpretação mais ambiciosa: Omni é o primeiro membro de uma nova família de modelos treinada no Gemini que trata geração de imagem, geração de vídeo e áudio sincronizado em uma única passagem direta. É a arquitetura que o HappyHorse 1.0 inaugurou ao tomar a #1 da Arena em abril com modelo unificado áudio-vídeo de 15B parâmetros. Sob esta teoria, Omni substitui tanto o pipeline atual Veo (vídeo) quanto a pilha Nano Banana Pro (imagem) por um único gerador multimodal.

A favor: O próprio nome do produto — «Omni» — implica fortemente alcance multimodal. O enquadramento UI («our new video model, remix your videos, edit directly in chat») sugere uma única superfície de produto cobrindo múltiplas modalidades. A pressão competitiva do HappyHorse por entregar arquitetura unificada é aguda; o Google vem perdendo a ponta da Arena desde abril. (Detalhes arquiteturais na nossa resenha do HappyHorse 1.0.)

Contra: Modelos omni unificados são tecnicamente difíceis, e o Google tem sido mais conservador que ByteDance ou Alibaba ao mandar arquiteturas novas para consumer. Substituir dois pipelines de produção simultaneamente é jogada de alto risco para um keynote público.

Onde o dinheiro aposta

Observadores do setor se dividem aproximadamente 30/30/40 nas três teorias. A leitura mais provável, com base no enquadramento UI e no salto de capacidade, é um híbrido entre Teoria 2 e Teoria 3: novo modelo treinado no Gemini que trata ao menos vídeo e áudio de modo unificado, com Veo mantido vivo no Vertex AI para clientes enterprise que precisam de estabilidade. Em seis dias saberemos.

Por que isso importa além do Google

Omni não é interessante porque o Google está lançando novo modelo de vídeo. Novos modelos de vídeo lançam todo mês agora. Omni é interessante por causa do que significaria se a Teoria 3 estivesse certa.

A indústria de vídeo IA passou os primeiros quatro meses de 2026 vendo a tese do modelo omni unificado se desenrolar. Sora 2 colapsou em 84 dias com arquitetura de pipelines separados. HappyHorse 1.0 tomou a #1 da Arena em 48 horas com arquitetura unificada de 15B parâmetros. Seedance 2.0 entrega áudio e vídeo juntos via transformer de dois ramos. O centro de gravidade técnico se deslocou para modelos unificados durante um trimestre inteiro, e o único grande laboratório ocidental que não havia respondido era o Google.

Se Omni é verdadeiro modelo unificado — Teoria 3 — então o Google está alinhando-se à tendência arquitetural estabelecida pelos líderes chineses. Há três efeitos a jusante:

  1. A marca Veo consolida ou se aposenta. Operar um Veo de pipelines separados ao lado de um Omni unificado por mais de 12 meses não faz sentido. Clientes enterprise no Vertex AI esperariam caminho de migração.
  2. O gap arquitetural Ocidente/China se fecha. O enquadramento «modelos chineses têm vantagem estrutural por terem pioneirado arquiteturas unificadas» enfraquece assim que o Google entrega o seu.
  3. A diferenciação na camada de modelo continua comprimindo. Se quatro dos top seis modelos usam arquiteturas unificadas áudio-vídeo, a camada modelo se comoditiza ainda mais e a camada agent vira o único ponto significativo de diferenciação. É a tese central do nosso balanço de meados de 2026, e Omni a estenderia.

Se Omni é só rebranding (Teoria 1), boa parte disso não se aplica. Mas os clipes vazados tornam a Teoria 1 a menos provável das três.

O que observar no I/O — checklist de seis pontos

Quando o keynote começar em 19 de maio, eis o que dirá qual teoria estava certa. Nenhum sinal sozinho é definitivo, mas juntos formam um quadro claro.

Sinal 1: o Google ainda diz «Veo» no palco do keynote?

Se Veo estiver visivelmente ausente do segmento Gemini voltado ao consumer, é evidência de que Veo está se aposentando como marca consumer. Se Veo continuar sendo mencionado ao lado de Omni, os dois coexistem (Teoria 2). Se os dois forem mencionados mas Veo estiver posicionado apenas para enterprise, a migração começa.

Sinal 2: Omni gera áudio na mesma chamada que vídeo?

Uma única chamada de API retornando vídeo + áudio sincronizados é a assinatura técnica de um modelo omni unificado (Teoria 3). Duas chamadas API separadas — vídeo primeiro, depois segunda chamada para síntese de áudio — é o padrão arquitetural anterior. O demo do keynote provavelmente mostrará isso com clareza.

Sinal 3: Omni também trata geração de imagem?

Se Omni for posicionado apenas como o novo modelo de vídeo, o escopo é mais estreito. Se Omni absorver geração de imagem — substituindo Nano Banana Pro dentro da superfície de chat do Gemini — é evidência da tese multimodalidade mais ampla. Observe se demos de geração de imagem no keynote são creditados a «Omni» ou permanecem como Nano Banana / Imagen.

Sinal 4: há API no primeiro dia?

Veo 3.1 lançou no Vertex AI no dia um de seu keynote. Se Omni sair com acesso API público e preço em 19–20 de maio, está posicionado para uso em produção imediato. Se sair apenas consumer com API «mais para o fim do ano», o Google segue a rota retail-first do Sora 2 — já vimos que não funciona economicamente em escala.

Sinal 5: qual a estrutura de preço?

O benchmark atual de preço público top-tier de API vai de cerca de US$ 0,05/s (HappyHorse 1.0) a US$ 0,50/s (Veo 3.1). Se o preço da API do Omni se aproximar do HappyHorse, o Google compete em custo; se se aproximar do Veo 3.1, em qualidade. A escolha dirá qual mercado o Google prioriza.

Sinal 6: como o Project Astra se encaixa?

O Google vem demonstrando o Project Astra — seu assistente multimodal em tempo real — em todos os I/O desde 2024. Se Astra virar produto em 19–20 de maio e usar Omni por baixo, essa é a tese «omni» mais ampla: não apenas um modelo de vídeo mas uma superfície IA multimodal em tempo real cruzando toda a experiência Gemini.

O que isso significa para seu workflow

Três pontos práticos enquanto esperamos o keynote.

Se você é criador usando Gemini diretamente

Não mude nada ainda. Omni no app Gemini consumer, se sair na próxima semana, simplesmente substituirá ou atualizará a experiência de geração de vídeo existente. A formulação «remix your videos, edit directly in chat» sugere o mesmo workflow guiado por chat que você já conhece, com modelo mais inteligente por baixo. Espere o anúncio, experimente as novas capacidades, ajuste seus prompts segundo o que realmente muda.

Se você desenvolve sobre o Vertex AI

Acompanhe Sinal 1 (marca Veo) e Sinal 4 (disponibilidade de API) de perto. Se Veo for retirado como marca consumer mas permanecer no Vertex AI para enterprise, sua integração existente está segura. Se Omni substituir Veo completamente no Vertex AI, você tem uma migração de API pela frente. Em qualquer caso, construa sua integração através de uma camada de agent ou orquestração para que a troca de modelo seja mudança de configuração, não de código.

Se você opera uma stack de agent multi-modelo

Essa é a situação defendida em nossas peças recentes. (Ver os seis deslocamentos e gargalos de formato longo.) Um agent multi-modelo trata Omni como mais um gerador para rotear — ao lado de Veo, Seedance, HappyHorse, Kling, Luma e Runway. A camada agent é onde vive a pergunta produtiva: qual plano neste vídeo de 60 segundos é roteado para qual modelo. O anúncio do Omni adiciona outra opção à tabela de roteamento; não muda a arquitetura que você opera.

É exatamente por isso que mantivemos a stack do Genra agnóstica ao modelo: a camada de modelo continua se mexendo, a camada agent é o que se acumula.

Conclusão, seis dias antes do I/O

O que sabemos: existe um modelo real chamado Omni dentro da aba de vídeo do Gemini, produz saída visivelmente melhor que o Veo 3.1 público em física e texto, e o Google o enquadra como produto de workflow baseado em chat. O que não sabemos: se é rebranding, novo modelo paralelo ou sistema omni-modalidade unificado.

A previsão singular mais útil é a terceira. Se a Teoria 3 acertar, o gap arquitetural Ocidente/China se fecha em 19 de maio, e a indústria volta a uma corrida multipolar com todos os grandes laboratórios rodando arquiteturas unificadas áudio-vídeo. Se errar, o Google segue atrás da fronteira arquitetural fixada pelo HappyHorse — e o quadro competitivo se mantém como após o lançamento do HappyHorse em abril.

De qualquer modo, a conclusão prática é a mesma: a camada modelo segue se mexendo, a camada agent é onde você deveria estar construindo. Omni não muda isso. Ou reforça (adicionando outro modelo commodity à tabela de roteamento) ou não mexe o ponteiro (se for rebranding). Times que já deslocaram a diferenciação para infraestrutura de agent absorverão o que o Google anunciar em 19 como atualização de configuração. Times ainda apostando num único modelo herói passarão o resto do Q2 refatorando.

Atualizaremos esta peça depois do keynote com o que for realmente anunciado.

FAQ

O que é Gemini Omni?

Gemini Omni é um modelo de geração de vídeo IA não anunciado que emergiu via dois vazamentos dentro da interface Gemini do Google — uma string UI detectada em 2 de maio de 2026 e clipes de vídeo gerados vazados de uma conta Gemini Pro em 11 de maio. O Google não confirmou Omni oficialmente em 13 de maio. A janela mais provável de anúncio é Google I/O 2026 nos dias 19–20 de maio.

Gemini Omni vai substituir Veo?

Não confirmado. Três teorias em jogo: Omni é rebranding consumer do Veo 3.1, Omni é novo modelo separado treinado no Gemini coexistindo com Veo, ou Omni é modelo omni-modalidade unificado substituindo Veo e a pilha de geração de imagem. Os clipes vazados sugerem capacidade superior ao Veo 3.1 público atual, o que torna a teoria do rebranding puro a menos provável.

O que os clipes vazados mostraram?

Dois clipes receberam mais atenção: cena de espaguete em restaurante à beira-mar (notável por gerenciar movimento de comida de alta carga física) e professor desenvolvendo demonstrações trigonométricas em quadro-negro (notável por renderizar notação matemática coerente ao longo dos quadros). Ambas são áreas de fraqueza reconhecidas dos modelos de vídeo.

Quando saberemos o que Omni realmente é?

Google I/O 2026 em 19–20 de maio. Observe seis sinais: Veo continua sendo mencionado, áudio é gerado na mesma chamada que vídeo, geração de imagem incluída, API no dia um, preço e como o Project Astra se encaixa.

O que devo fazer como criador antes do anúncio?

Não mude nada ainda. Se usa Gemini consumer, espere o lançamento. Se está no Vertex AI, atento ao caminho de migração de API. Se opera stack de agent multi-modelo, trate Omni como mais um gerador para rotear.

Como Omni se compara ao HappyHorse 1.0?

HappyHorse 1.0 tomou a Artificial Analysis Video Arena #1 em 48 horas quando lançou em 7 de abril de 2026, com arquitetura unificada áudio-vídeo de 15B parâmetros. Se Omni também for modelo omni unificado, representa a primeira resposta do Google a essa direção arquitetural.


Sobre o autor
Chris Sherman cobre tecnologia de vídeo IA e fluxos de produção criativa. Siga @GenraAI para cobertura ao vivo durante o keynote do Google I/O 2026 em 19–20 de maio.