Gemini Omni: lo que la filtración pre-I/O realmente nos dice
· Chris Sherman2 de mayo: una cadena de UI. 11 de mayo: los primeros clips generados. 19–20 de mayo: el anuncio. Seis días antes del keynote de Google — esto es lo que se sabe sobre Gemini Omni, y lo que no.
Una filtración en dos actos
Para un modelo que aún no se ha anunciado, Gemini Omni ha tenido un preámbulo inusualmente bien documentado. El rastro empieza el 2 de mayo de 2026, cuando un usuario de X detectó una cadena de UI escondida en la pestaña de generación de vídeo de Gemini: «Start with an idea or try a template. Powered by Omni». TestingCatalog lo publicó el mismo día. La cadena quedó ahí nueve días mientras todos especulaban.
Luego, el 11 de mayo de 2026, cayó la segunda noticia. Se filtraron clips generados —claramente producidos por algo distinto del Veo 3.1 público— desde al menos una cuenta de Gemini Pro. Dos de ellos recibieron más atención: una escena de espaguetis en un restaurante junto al mar y un profesor desarrollando demostraciones trigonométricas en una pizarra. Ambos fueron recogidos por 9to5Google, Android Authority, Chrome Unboxed y una docena más de medios en 24 horas.
El siguiente gran evento es Google I/O 2026, los días 19–20 de mayo. Cuando leas esto faltarán seis días. Google ha confirmado que Gemini y las novedades de IA están en la agenda. No ha confirmado Omni por su nombre.
Este artículo es la instantánea del 13 de mayo —el medio del intervalo. Qué es real, qué es especulación, qué insinúan los clips y qué vigilar de verdad cuando empiece el keynote. Actualizaremos después de I/O.
Cronología de un vistazo
| Fecha | Evento | Fiabilidad |
|---|---|---|
| 2 de mayo de 2026 | Cadena de UI «Powered by Omni» descubierta en la pestaña de vídeo de Gemini | Alta — captura circulando |
| 2–10 de mayo de 2026 | Fase de especulación. Sin salida concreta, pero varios medios confirman la cadena | Verificado |
| 11 de mayo de 2026 | Se filtran clips desde una cuenta de Gemini Pro — sobre todo la escena de espaguetis y el profesor de pizarra | Alta — múltiples medios reportan los mismos clips de forma independiente |
| 11–12 de mayo | Aparece cadena de UI ampliada: «Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more» | Verificado |
| 19–20 de mayo de 2026 | Keynote Google I/O 2026 — anuncio oficial probable | Programado (aún no ocurrido) |
Destacan dos cosas. Primero, la filtración fue dentro del producto, no una indiscreción de marketing — Google parece haber empezado a desplegar Omni a un subconjunto pequeño de usuarios de Gemini Pro antes del anuncio, y el despliegue fue lo suficientemente visible como para ser capturado. Es una señal mucho más creíble que una filtración a prensa. Segundo, la segunda cadena de UI («remix your videos, edit directly in chat, try templates») te dice que Google está enmarcando esto como producto de flujo de trabajo, no solo como modelo — frases como «edit directly in chat» y «remix» son lenguaje de producto de consumo, no lenguaje de benchmark.
Qué muestran los dos clips en realidad
Los dos clips filtrados son la información más concreta disponible ahora. Ambos eran cortos —menos de 10 segundos— y se generaron a partir de prompts de texto dentro de lo que los usuarios describieron como la interfaz web de Gemini Pro.
Clip 1: la escena de los espaguetis
Un comensal en un restaurante junto al mar comiendo espaguetis, luz de atardecer, ambiente sonoro mediterráneo. Lo notable no es la fidelidad visual —compite con lo que Veo 3.1 ya hace. Lo notable es que los espaguetis se comportan como espaguetis. Se enrollan en el tenedor, caen con peso, y el gesto tenedor-a-boca respeta la continuidad. Las escenas de comida con alta carga física han sido históricamente un punto débil para los modelos de vídeo — los utensilios y la comida se deforman de forma antinatural, las hebras se rompen, la gravedad deja de funcionar a medio camino. El clip filtrado lo maneja con limpieza, lo que sugiere que el modelo subyacente tiene un prior físico notablemente mejor que el Veo 3.1 público.
Clip 2: el profesor de pizarra
Un profesor desarrollando demostraciones trigonométricas en una pizarra. La cámara se mantiene sobre el tablero mientras escribe. Lo interesante aquí es el renderizado de texto y fórmulas. Los modelos de vídeo IA son notoriamente malos en texto coherente — las letras derivan entre frames, las ecuaciones se vuelven galimatías a medio camino, cualquier cosa que parezca matemáticas suele desmoronarse. El clip filtrado muestra notación matemática reconocible renderizada de forma consistente a lo largo de los frames, con la mano del profesor siguiendo correctamente los trazos. No es una mejora menor; es una categoría que llevaba dos años rota.
Qué implican los dos clips juntos
Si los clips filtrados son representativos —y conviene tomarse ese «si» en serio, porque Google naturalmente filtraría material que muestre su mejor salida— entonces Omni apunta a dos de las debilidades conocidas más duras del vídeo IA: física compleja y renderizado de texto en pantalla. Son los dos mismos puntos que tanto la retirada de Sora 2 como el lanzamiento de HappyHorse 1.0 señalaron como la próxima frontera. (Para la narrativa canónica de eso, ver nuestro balance de mediados de 2026.)
La elección del contenido demo importa. Una escena de espaguetis y una clase de matemáticas no son demostraciones estéticas — son demostraciones de capacidad apuntadas exactamente a las cosas que la competencia no puede hacer con fiabilidad. Eso te dice contra qué está posicionando Google a Omni.
Tres teorías rivales sobre qué es Omni en realidad
Aquí vive la especulación pre-I/O. Hay tres interpretaciones plausibles de qué representa Omni, y tienen implicaciones muy distintas para el resto del mercado.
Teoría 1: un rebranding de consumo de Veo 3.1
La interpretación más simple: Omni es solo un nuevo nombre público para la pipeline existente de Veo dentro de la app de consumo de Gemini. El stack de generación subyacente no cambia. Google retira la marca «Veo» de la superficie de consumo, la conserva para la API empresarial de Vertex AI y le da a la experiencia de chat de Gemini un nombre de producto unificado.
A favor: Google tiene historial de renombrar cosas. Bard → Gemini fue el ejemplo más visible. La marca de consumo «Veo 3.1» siempre ha sido torpe — los números de versión no se venden a usuarios no técnicos. Las cadenas de UI («remix your videos, edit directly in chat») enfatizan flujo de trabajo, no novedad del modelo.
En contra: Los clips filtrados muestran capacidad que excede al Veo 3.1 público, sobre todo en física y renderizado de texto. Un puro rebranding no produciría salida visiblemente distinta. A menos que Google esté lanzando silenciosamente un Veo 3.2 bajo la marca Omni, esta teoría no explica los clips.
Teoría 2: un modelo de vídeo separado entrenado en Gemini
La interpretación intermedia: Omni es un nuevo modelo de vídeo entrenado dentro de la línea Gemini —separado de la pipeline Veo de DeepMind— y se sitúa junto a Veo en el roadmap de Google en lugar de reemplazarlo. Gemini de consumo usa Omni; los clientes empresariales en Vertex AI siguen usando Veo. Ambos evolucionan en paralelo.
A favor: Google ha mantenido históricamente líneas de modelo paralelas (Gemini para consumo, líneas de investigación separadas para empresa). El salto de capacidad en los clips filtrados es consistente con un modelo entrenado con una mezcla de datos y arquitectura distintas a Veo 3.1.
En contra: Operar dos líneas de modelos de vídeo de primer nivel es caro. El cierre de Sora 2, que cubrimos en nuestro post-mortem, mostró que ni siquiera OpenAI podía sostener un solo modelo de vídeo de consumo a escala; operar dos sería una elección estratégica extraña para Google.
Teoría 3: un modelo Omni unificado (imagen + vídeo + audio en una sola pasada)
La interpretación más ambiciosa: Omni es el primer miembro de una nueva familia de modelos entrenada en Gemini que maneja generación de imagen, generación de vídeo y audio sincronizado en una sola pasada hacia adelante. Es la arquitectura que HappyHorse 1.0 inauguró cuando se llevó la Arena #1 en abril con un modelo unificado audio-vídeo de 15B parámetros. Bajo esta teoría, Omni reemplaza tanto la pipeline actual de Veo (vídeo) como el stack de Nano Banana Pro (imagen) con un solo generador multimodal.
A favor: El propio nombre del producto —«Omni»— implica fuertemente alcance multimodal. El marco de UI («our new video model, remix your videos, edit directly in chat») sugiere una sola superficie de producto cubriendo múltiples modalidades. La presión competitiva de HappyHorse para enviar una arquitectura unificada es aguda; Google ha estado perdiendo la cima de Arena desde abril. (Detalles arquitectónicos en nuestra reseña de HappyHorse 1.0.)
En contra: Los modelos omni-unificados son técnicamente difíciles, y Google ha sido más conservador que ByteDance o Alibaba a la hora de enviar arquitecturas novedosas al consumo. Reemplazar dos pipelines de producción simultáneamente es una jugada de alto riesgo para un keynote público.
Dónde está el dinero
Los observadores de la industria se reparten aproximadamente 30/30/40 entre las tres teorías. La lectura más probable, basada en el marco de UI y el salto de capacidad, es algún híbrido entre Teoría 2 y Teoría 3: un nuevo modelo entrenado en Gemini que maneja al menos vídeo y audio de forma unificada, con Veo manteniéndose vivo en Vertex AI para clientes empresariales que necesiten estabilidad. En seis días lo sabremos.
Por qué esto importa más allá de Google
Omni no es interesante porque Google esté lanzando un nuevo modelo de vídeo. Cada mes se lanzan modelos de vídeo nuevos. Omni es interesante por lo que significaría si la Teoría 3 fuera correcta.
La industria del vídeo IA pasó los primeros cuatro meses de 2026 viendo desplegarse la tesis del modelo omni-unificado. Sora 2 colapsó en 84 días corriendo una arquitectura de pipelines separadas. HappyHorse 1.0 se llevó la Arena #1 en 48 horas corriendo una arquitectura unificada de 15B parámetros. Seedance 2.0 envía audio y vídeo juntos vía un transformer de doble rama. El centro de gravedad técnico ha estado desplazándose hacia modelos unificados durante un trimestre entero, y el único gran laboratorio occidental que no había respondido era Google.
Si Omni es un verdadero modelo unificado —Teoría 3— entonces Google está igualando la tendencia arquitectónica establecida por los líderes chinos. Eso tiene tres efectos colaterales:
- La marca Veo se consolida o se retira. Operar un Veo de pipeline separada junto a un Omni unificado durante más de 12 meses no tiene sentido. Los clientes empresariales en Vertex AI esperarían una vía de migración.
- La brecha arquitectónica occidente/China se cierra. El marco «los modelos chinos tienen ventaja estructural porque pionearon arquitecturas unificadas» se debilita en cuanto Google envíe el suyo.
- La diferenciación a nivel de modelo sigue comprimiéndose. Si cuatro de los seis modelos top usan arquitecturas unificadas audio-vídeo, la capa de modelo se mercantiliza más y la capa de agente se vuelve el único punto de diferenciación significativo. Es la tesis central de nuestro balance de mediados de 2026, y Omni la extendería.
Si Omni es solo un rebranding (Teoría 1), la mayoría no aplica. Pero los clips filtrados hacen de la Teoría 1 la menos probable de las tres.
Qué vigilar en I/O — una checklist de seis puntos
Cuando empiece el keynote del 19 de mayo, esto te dice qué teoría era correcta. Ninguno por sí solo es definitivo, pero juntos forman un cuadro claro.
Señal 1: ¿Google sigue diciendo «Veo» en el escenario del keynote?
Si Veo está conspicuamente ausente del segmento Gemini orientado al consumidor, eso es evidencia de que Veo se está retirando como marca de consumo. Si Veo sigue mencionándose junto a Omni, ambos coexisten (Teoría 2). Si ambos se mencionan pero Veo solo se posiciona para empresa, la migración está empezando.
Señal 2: ¿Omni genera audio en la misma llamada que vídeo?
Una sola llamada API que devuelva vídeo + audio sincronizados es la firma técnica de un modelo omni-unificado (Teoría 3). Dos llamadas API separadas —vídeo primero, luego una segunda llamada para síntesis de audio— es el patrón arquitectónico anterior. La demo del keynote probablemente lo mostrará con claridad.
Señal 3: ¿Omni también maneja generación de imagen?
Si Omni se posiciona solo como el nuevo modelo de vídeo, el alcance es más estrecho. Si Omni absorbe la generación de imagen —reemplazando a Nano Banana Pro dentro de la superficie de chat de Gemini— es evidencia de la tesis multimodal más amplia. Vigila si alguna demo de generación de imagen en el keynote se atribuye a «Omni» o sigue marcada como Nano Banana / Imagen.
Señal 4: ¿Hay API el primer día?
Veo 3.1 lanzó en Vertex AI el día uno de su keynote. Si Omni llega con acceso público a API y precios el 19–20 de mayo, está posicionado para uso en producción de inmediato. Si llega solo para consumo con API «más adelante este año», Google va por el camino retail-first de Sora 2 — y ya hemos visto que económicamente no funciona a escala.
Señal 5: ¿cuál es la estructura de precios?
El benchmark actual de precios públicos top-tier de API va aproximadamente de $0.05/segundo (HappyHorse 1.0) a $0.50/segundo (Veo 3.1). Si el precio de la API de Omni se acerca a HappyHorse, Google compite por coste; si se acerca a Veo 3.1, compite por calidad. La elección te dirá qué mercado prioriza Google.
Señal 6: ¿cómo encaja Project Astra?
Google ha estado demostrando Project Astra —su asistente multimodal en tiempo real— en cada I/O desde 2024. Si Astra se vuelve producto el 19–20 de mayo y usa Omni por debajo, esa es la tesis «omni» más amplia: no solo un modelo de vídeo sino una superficie de IA multimodal en tiempo real a través de toda la experiencia Gemini.
Qué significa esto para tu flujo de trabajo
Tres cuestiones prácticas mientras esperamos el keynote.
Si eres creador usando Gemini directamente
No cambies nada todavía. Omni en la app de Gemini de consumo, si se lanza la próxima semana, simplemente reemplazará o actualizará la experiencia de generación de vídeo existente. La fórmula «remix your videos, edit directly in chat» sugiere el mismo flujo de trabajo dirigido por chat que ya conoces, con un modelo más inteligente debajo. Espera al anuncio, prueba las nuevas capacidades, ajusta tus prompts según lo que cambie realmente.
Si construyes sobre Vertex AI
Vigila Señal 1 (marca Veo) y Señal 4 (disponibilidad de API) con atención. Si Veo se retira como marca de consumo pero se queda en Vertex AI para empresa, tu integración existente está a salvo. Si Omni reemplaza completamente a Veo en Vertex AI, tienes por delante una migración de API. En cualquier caso, construye tu integración a través de una capa de agente u orquestación de modo que el cambio de modelo sea un cambio de configuración, no de código.
Si operas un stack de agente multi-modelo
Es la situación que hemos defendido en nuestras piezas recientes. (Ver los seis cambios y los cuellos de botella de formato largo.) Un agente multi-modelo trata Omni como otro generador al que enrutar — junto a Veo, Seedance, HappyHorse, Kling, Luma y Runway. La capa de agente es donde vive la pregunta productiva: qué plano dentro de este vídeo de 60 segundos se enruta a qué modelo. El anuncio de Omni añade otra opción a la tabla de enrutado; no cambia la arquitectura que estás operando.
Esa es exactamente la razón por la que hemos mantenido el stack de Genra agnóstico al modelo: la capa de modelo sigue rotando, la capa de agente es lo que compone.
Conclusión, seis días antes de I/O
Lo que sabemos: hay un modelo real llamado Omni dentro de la pestaña de vídeo de Gemini, produce salida visiblemente mejor que el Veo 3.1 público en física y texto, y Google lo enmarca como producto de flujo de trabajo basado en chat. Lo que no sabemos: si es un rebranding, un nuevo modelo paralelo o un sistema omni-modal unificado.
La predicción individual más útil es la tercera. Si la Teoría 3 acierta, la brecha arquitectónica occidente/China se cierra el 19 de mayo, y la industria vuelve a una carrera multipolar donde todos los grandes laboratorios operan arquitecturas unificadas audio-vídeo. Si la Teoría 3 falla, Google sigue por detrás de la frontera arquitectónica fijada por HappyHorse — y el panorama competitivo se mantiene como tras el lanzamiento de HappyHorse en abril.
En cualquier caso, la conclusión práctica es la misma: la capa de modelo sigue moviéndose, la capa de agente es donde deberías estar construyendo. Omni no cambia eso. O lo refuerza (añadiendo otro modelo commodity a la tabla de enrutado) o no mueve la aguja (si es un rebranding). Los equipos que ya han trasladado su diferenciación a la infraestructura de agente absorberán lo que Google anuncie el 19 como una actualización de configuración. Los equipos que aún apuestan a un solo modelo héroe pasarán el resto del Q2 reacomodándose.
Actualizaremos esta pieza después del keynote con lo que realmente se anuncie.
FAQ
¿Qué es Gemini Omni?
Gemini Omni es un modelo de generación de vídeo IA no anunciado que ha salido a la luz mediante dos filtraciones dentro de la interfaz de Gemini de Google — una cadena de UI detectada el 2 de mayo de 2026 y clips de vídeo generados filtrados desde una cuenta de Gemini Pro el 11 de mayo. Google no ha confirmado oficialmente Omni a 13 de mayo. La ventana más probable de anuncio es Google I/O 2026 los días 19–20 de mayo.
¿Va Gemini Omni a reemplazar a Veo?
Sin confirmar. Hay tres teorías en juego: Omni es un rebranding de consumo de Veo 3.1, Omni es un modelo nuevo separado entrenado en Gemini que coexiste con Veo, u Omni es un modelo omni-modal unificado que reemplaza tanto a Veo como al stack de generación de imagen. Los clips filtrados sugieren capacidad superior al Veo 3.1 público actual, lo que hace que la teoría del puro rebranding sea la menos probable.
¿Qué mostraron los clips filtrados?
Dos clips recibieron la mayor atención: una escena de espaguetis en un restaurante junto al mar (destacable por manejar movimiento de comida con alta carga física) y un profesor desarrollando demostraciones trigonométricas en una pizarra (destacable por renderizar notación matemática coherente a lo largo de los frames). Ambas áreas han sido puntos débiles reconocidos para los modelos de vídeo.
¿Cuándo sabremos qué es Omni realmente?
Google I/O 2026 los días 19–20 de mayo. Vigila seis señales: si Veo se sigue mencionando, si el audio se genera en la misma llamada que el vídeo, si se incluye generación de imagen, si hay API el primer día, cuál es el precio y cómo encaja Project Astra.
¿Qué debería hacer como creador antes del anuncio?
No cambies nada todavía. Si usas Gemini de consumo, espera al lanzamiento. Si estás en Vertex AI, atento a la ruta de migración de API. Si operas un stack de agente multi-modelo, trata a Omni como otro generador al que enrutar.
¿Cómo se compara Omni con HappyHorse 1.0?
HappyHorse 1.0 se llevó la Artificial Analysis Video Arena #1 en 48 horas cuando se lanzó el 7 de abril de 2026, con arquitectura unificada audio-vídeo de 15B parámetros. Si Omni también es un modelo omni-unificado, representa la primera respuesta de Google a esa dirección arquitectónica.
Sobre el autor
Chris Sherman cubre tecnología de vídeo IA y flujos de producción creativa. Sigue a @GenraAI para cobertura en vivo durante el keynote de Google I/O 2026 los días 19–20 de mayo.