Resumen de Google I/O 2026: No hay Veo 4 — pero Gemini Omni y Spark oficializaron la capa de agentes
· Chris ShermanDurante dos meses, toda la industria del video con IA habló de Veo 4. No se lanzó. Lo que Google anunció en I/O 2026 fue más grande y más extraño: un modelo multimodal unificado llamado Gemini Omni, un agente residente en la nube 24/7 llamado Spark, un plan AI Ultra de 100 $ que restablece el suelo de precios de consumo, y una señal clara de que Google ahora ve la capa de agentes como la próxima batalla de plataforma. Aquí está el resumen completo.
Sundar Pichai subió al escenario del Shoreline Amphitheatre ayer y le dio a la industria del video con IA algo que no esperaba. No hubo Veo 4. No hubo ningún titular con la marca "Veo". En su lugar había algo estratégicamente más interesante: Gemini Omni, un modelo multimodal que maneja de forma nativa la generación de texto, imagen, audio y video en un único sistema; Gemini Spark, un agente de IA personal que vive en una VM en la nube y actúa en tu nombre 24 horas al día; y una reestructuración de precios que coloca un plan AI Ultra de 100 $ en el centro de la apuesta de IA de consumo de Google.
La keynote reescribió el guion de los próximos 12 meses de video con IA. A continuación, todo lo que Google anunció, lo que realmente significa y dónde se encuentra ahora la industria del video con IA la mañana siguiente.
Gemini Omni: El titular que nadie predijo
El anuncio más relevante fue Gemini Omni — una nueva serie de modelos que Google describe como el primer sistema de generación multimodal verdaderamente unificado de la compañía. Donde el lineup anterior de Google separaba capacidades entre Veo (video), Imagen (imagen) y otros sistemas encadenados, Omni gestiona la generación de texto, imagen, audio y video de forma nativa en un solo modelo.
El primer modelo público del marco Omni es Omni Flash. Acepta entradas combinadas de texto, imagen y audio, y produce video corto cinematográfico con sonido sincronizado. Google mostró usuarios subiendo una imagen estática, dando instrucciones de viva voz y recibiendo una escena animada con audio nativo que responde a la dirección hablada. La edición es conversacional — refinas un clip diciendo qué cambiar, en lugar de escribir un nuevo prompt y regenerar desde cero.
Tres cosas hacen a Omni estratégicamente distinto del linaje Veo:
- Un modelo, no un stack. Veo 3 ya tenía audio nativo, pero el stack creativo más amplio de Google todavía dependía de encadenar modelos separados para generación de imagen, producción de audio y edición. Omni colapsa esa cadena. La implicación estratégica es que Google cree que el próximo salto en calidad viene del entrenamiento conjunto entre modalidades, no de seguir escalando modelos solo de video.
- Generación basada en mundo. Demis Hassabis enmarcó Omni como una construcción sobre el trabajo de modelos del mundo de Google DeepMind. La propuesta es que Omni genera video con mayor coherencia espacial, temporal y física porque el modelo subyacente tiene una representación interna del mundo más rica. Si la salida prueba esto en la práctica es una pregunta que estaremos midiendo el próximo trimestre.
- La edición como capacidad de primera clase. Omni se posiciona no solo como generador sino como editor. El refinamiento conversacional, el cambio de escenas y las operaciones tipo remix forman parte de la superficie del producto, no de una capa externa. Es un cambio significativo en la filosofía de producto al que los competidores tendrán que responder.
Lo que Omni actualmente no hace: formato largo. Omni Flash es de formato corto, y Google fue explícito en que flujos de producción más largos y avanzados están planeados pero aún no se lanzan. Quien esperaba generación narrativa de 60 segundos en una sola toma sigue esperando.
Gemini Spark: Un agente personal 24/7 en la nube
Si Omni fue el titular que la mayoría de los analistas malinterpretó, Spark fue el anuncio más subestimado.
Gemini Spark es un agente de IA personal que vive en una VM dedicada de Google Cloud, se ejecuta continuamente y actúa en tu nombre a través de productos de Google y una lista creciente de servicios de terceros mediante Model Context Protocol (MCP). La descripción del propio Google: un agente que puede "reservar restaurantes, hacer un pedido en Instacart y redactar las respuestas de tu bandeja de entrada mientras duermes".
El significado estratégico es difícil de exagerar. Durante dos años, la historia de IA de consumo de Google fue Gemini como chatbot. Spark es Google diciendo explícitamente que el chatbot era el marco equivocado — el marco correcto es un agente autónomo que opera a través de aplicaciones y a lo largo del tiempo. El agente lee tu bandeja de entrada, ejecuta acciones en tus herramientas, planifica a través de servicios e informa. El usuario describe resultados; Spark gestiona la ejecución.
Es la misma tesis que la industria del video con IA ha estado debatiendo el último año, aplicada a la productividad general. La capa de agentes ya no es una apuesta de posicionamiento de startups. Es ahora la apuesta de posicionamiento de Google.
El precio importa aquí. Spark está restringido tras el nuevo plan AI Ultra de 100 $/mes y se despliega en beta para suscriptores de EE. UU. la próxima semana. Solo el precio ya señala que Google cree que hay una población significativa de usuarios dispuestos a pagar nueve veces más que el plan Gemini Pro de 11 $ para obtener un agente que realmente haga cosas.
Gemini 3.5: La actualización fundacional
Bajo los anuncios de Omni y Spark se encuentra una renovación del modelo fundacional. Gemini 3.5 Flash se lanzó ayer en la app de Gemini, Search, Antigravity y la Gemini API. La afirmación de Google: supera a Gemini 3.1 Pro en benchmarks de programación, agentes y multimodales, funcionando a aproximadamente 4 veces la velocidad de tokens de salida de modelos frontera comparables.
Gemini 3.5 Pro está anunciado pero aún no está disponible de forma general. Está en pruebas y se lanza el mes que viene.
El patrón en Flash, Pro, Omni y Spark es consistente: cada producto que Google anunció en I/O está construido sobre la pista de capacidades agentivas. Seguimiento de instrucciones más rápido, contexto efectivo más largo, mejor uso de herramientas y ejecución multi-paso más fiable. La capa del modelo se está moldeando para servir a la capa de agentes por encima.
Antigravity 2.0: La historia para desarrolladores
Antigravity es la plataforma de desarrollo de agentes de Google. Ayer recibió una actualización a 2.0 centrada en la orquestación — permitiendo a los desarrolladores componer, programar y supervisar múltiples agentes que interactúan entre sí y con herramientas externas.
La relevancia para el video con IA es indirecta pero real. A medida que más herramientas de video con IA pasan de envoltorios de un solo modelo a verdaderas pipelines orquestadas, la infraestructura subyacente para ejecutar, monitorear y depurar esas orquestaciones se convierte en una dependencia fundamental. Antigravity 2.0 es Google intentando poseer esa capa de infraestructura del mismo modo que posee la capa del modelo por debajo.
Si los constructores independientes de agentes se apoyarán en la infraestructura de Google o construirán la suya propia es una de las preguntas abiertas más interesantes que emergen de esta keynote. La respuesta determina cuánto de la economía de agentes captura Google frente a cuánto permanece genuinamente abierto.
El plan AI Ultra de 100 $: un reseteo del suelo de precios
Google AI Ultra ahora comienza en 100 $ al mes, con un plan superior a 200 $. El plan Ultra anterior costaba 250 $. La nueva entrada incluye acceso beta a Gemini Spark, 5 veces el límite de uso de la app de Gemini del plan Pro de 20 $, 20 TB de almacenamiento en la nube y YouTube Premium.
La lectura estratégica es directa: Google está fijando precios agresivos para la IA premium de consumo para capturar a los early adopters que definirán cómo se siente un producto agente. A 100 $/mes, Spark compite ahora directamente con la parte alta de ChatGPT Pro y los planes de consumo de Claude. La capacidad de agente es el diferenciador — y es una función de la que los competidores tendrán que lanzar versiones en los próximos 12 meses o ceder la categoría de agente de productividad.
Para creadores y operadores, la pregunta relevante es si 100 $/mes por un agente personal acelera de forma significativa el trabajo. La respuesta sincera y temprana: depende enteramente de si la beta de Spark cumple con la demo. Las demos son demos. Lo sabremos en 90 días.
Android XR y Project Aura: La superficie de hardware
Google también presentó nuevos dispositivos de "gafas inteligentes", incluyendo Project Aura, las gafas inteligentes de clase XR desarrolladas en colaboración con Xreal. Al menos tres asociaciones de gafas inteligentes se lanzan este año, posicionando a Google entre las Ray-Ban audio-first de Meta y los headsets XR completos.
El ángulo de la IA: están impulsadas por Gemini. Contexto visual en vivo, interacción por voz y acción agentiva — todo ponible. Para el video con IA, las implicaciones son derivadas pero reales. Una cámara ponible con contexto de Gemini se convierte en un dispositivo de entrada permanente para la creación de video, tanto para captura de referencia como para edición en vivo sobre la marcha. Estamos a 18 meses de que esto importe para flujos de producción. Estamos a cero meses de que importe para demos de consumo.
Android 17: El SO como capa de inteligencia
La actualización de Android de Sameer Samat posicionó al propio SO como pasando "de un sistema operativo a un sistema de inteligencia". El marco — Gemini entiende contexto entre apps, anticipa necesidades y toma acciones en nombre del usuario — es la misma tesis de capa de agentes aplicada a la plataforma móvil.
Las características concretas importan menos que el marco. Google se está comprometiendo con un futuro donde la capa del SO y la capa de agentes colapsan en un solo stack, todo ejecutándose sobre modelos fundacionales Gemini. Para los desarrolladores, esto significa que el diseño de apps consciente del agente ya no es un patrón opcional; es la suposición base alrededor de la cual Google está construyendo la plataforma.
Lo que no llegó: la ausencia de Veo 4
El anuncio esperado más vigilado que no ocurrió: Veo 4. No hubo revelación de Veo 4, ni cronograma de Veo 4, ni confirmación explícita de que Veo esté siendo descontinuado a favor de la línea Omni.
La lectura más probable: Google está consolidando sus esfuerzos de video generativo bajo Omni en lugar de continuar desarrollos paralelos de Veo. Omni Flash se posiciona como el nuevo punto de partida. Veo 3.1 sigue siendo la opción de grado de producción para casos de uso que Omni Flash aún no cubre — particularmente generación más larga de toma única, salida 4K y consistencia de personaje mediante ID-embedding, ninguno de los cuales Omni Flash soporta actualmente.
Para la industria más amplia del video con IA, este es un pivote significativo. Dieciocho meses de "qué hará Veo a continuación" han sido reemplazados por "qué es Omni". Los operadores con automatización específica para Veo tendrán que evaluar si esperan a que Omni madure en formato largo, o mantener la producción en Veo 3.1 en el futuro previsible. Probablemente ambos, en paralelo, en diferentes tipos de contenido.
Qué significa esto para los operadores de video con IA
Dando un paso atrás respecto a los anuncios individuales, ayer cambiaron tres cosas que darán forma al video con IA durante el próximo año.
Primero, la estrategia de modelos se volvió más desordenada de una manera útil. Omni es una apuesta multimodal unificada, pero Omni Flash es solo de formato corto. Veo 3.1 sigue haciendo el trabajo pesado para clips más largos y resoluciones más altas. Las pipelines de producción reales usarán ambos, enrutarán entre ellos y cambiarán dinámicamente a medida que Omni madure. La capa de agentes es donde vive esa lógica de enrutamiento.
Segundo, el pensamiento de capa de agentes es ahora consenso. Spark es Google diciendo en voz alta que el marco del chatbot fue un paso de transición y que el destino es un agente autónomo. Cada equipo de producto de IA de consumo y empresa que ha estado debatiendo si construir "un asistente" o "un agente" ha recibido una respuesta zanjada. La capa de agentes es hacia donde se mueve la competencia.
Tercero, la edición conversacional cambia los flujos de los creadores. El énfasis de Omni en la edición en chat — refinar un clip describiendo qué cambiar — colapsa lo que solía ser un proceso de dos pasos generar-y-editar. Para los creadores de video con IA, es una simplificación significativa de UX que se espera que los competidores igualen. La pipeline de Genra ya soporta iteración conversacional; espere que cada plataforma seria de video con IA lance una versión de esto en seis meses.
Qué hace Genra a continuación
Unas notas honestas sobre hacia dónde va Genra desde aquí.
Omni Flash será integrado tan pronto como esté disponible a través de la Gemini API. La capa de agentes que Genra ha estado construyendo fue diseñada para ser model-agnostic precisamente para que adiciones como Omni se conviertan en cambios de backend, no de flujo de trabajo. Los usuarios verán mejor salida de formato corto cuando la lógica de enrutamiento empiece a elegir Omni Flash para los planos en los que mejor lo hace. Los casos de uso de formato largo, 4K y alta consistencia continúan ejecutándose en Veo y Seedance.
El encuadre de Spark como agente residente en la nube 24/7 es la validación más cercana que podríamos haber pedido de la tesis de la capa de agentes. Genra es un agente específico de dominio para producción de video. Spark es un agente de propósito general para productividad personal. Los dos coexisten cómodamente — del mismo modo que un agente CRM y un agente de programación coexisten con un asistente general de productividad.
El marco competitivo más amplio: con Google ahora comprometido con la capa de agentes a nivel de plataforma, la pregunta para cada startup de video con IA ya no es "¿son los agentes el futuro?" — eso está resuelto. La pregunta es qué agentes específicos de dominio se convierten en la opción confiable en su categoría. Para el video con IA, esa es la pregunta para la que Genra está construido para responder.
Conclusiones clave
- Google I/O 2026 no lanzó Veo 4. El anuncio principal de video fue Gemini Omni, un modelo multimodal unificado que maneja generación de texto, imagen, audio y video en un único sistema, con Omni Flash como primer modelo público.
- Gemini Spark, un agente personal residente en la nube 24/7 que actúa a través de productos de Google y servicios de terceros conectados por MCP, es el anuncio estratégicamente más significativo. Compromete a Google con la capa de agentes como próximo combate de plataforma.
- Gemini 3.5 Flash se lanzó ayer; Gemini 3.5 Pro está en pruebas para el mes próximo. Cada actualización fundacional se enmarcó en torno a capacidades agentivas, no solo inteligencia.
- AI Ultra se reprició a 100 $/mes de entrada (200 $ plan superior), bajando del anterior Ultra de 250 $. El acceso a la beta de Spark está restringido al plan de 100 $ para suscriptores de EE. UU. la próxima semana.
- Antigravity 2.0 expande la plataforma de desarrollo de agentes de Google con herramientas de orquestación — la jugada de infraestructura para constructores de agentes.
- Android XR y las gafas inteligentes Project Aura, además del encuadre de Android 17 como "sistema de inteligencia", extienden la tesis de agentes a las capas de hardware y SO.
- Omni Flash es solo de formato corto. Veo 3.1 sigue siendo la herramienta de producción para video más largo, de mayor resolución y con consistencia de ID. Las pipelines reales enrutarán entre ambos.
- La edición conversacional como capacidad de primera clase en Omni es un cambio de flujo que los competidores tendrán que igualar en seis meses.
- Genra integra Omni Flash tan pronto como esté disponible acceso por API, con los usuarios viendo el aumento de calidad en planos cortos enrutados silenciosamente. El trabajo de formato largo, 4K y crítico en consistencia continúa en Veo y Seedance.
Preguntas frecuentes
¿Google anunció Veo 4 en I/O 2026?
No. No hubo anuncio de Veo 4. Google introdujo la serie de modelos Gemini Omni en su lugar, con Omni Flash como primer modelo disponible públicamente. La interpretación más probable es que Google está consolidando el trabajo de video generativo bajo el marco Omni en lugar de continuar generaciones paralelas de Veo.
¿Qué es Gemini Omni?
Gemini Omni es la nueva serie de modelos multimodales unificados de Google, capaz de generar texto, imagen, audio y video de forma nativa a partir de entradas combinadas. Omni Flash es el primer modelo público, centrado en video de formato corto con audio nativo sincronizado y edición conversacional.
¿Qué es Gemini Spark?
Gemini Spark es un agente de IA personal residente en la nube 24/7 que se ejecuta en una VM dedicada de Google, se integra con productos de Google y más de 30 servicios de terceros vía MCP, y toma acciones en nombre del usuario — reservar, pedir, redactar y gestionar tareas. Se despliega en beta para suscriptores de AI Ultra en EE. UU. la próxima semana.
¿Cuánto cuesta Google AI Ultra en 2026?
El nuevo nivel de entrada de AI Ultra es de 100 $ al mes, bajando de 250 $. Un nivel superior cuesta 200 $. El plan de 100 $ incluye acceso beta a Gemini Spark, 5 veces el límite de uso de la app de Gemini del plan Pro, 20 TB de almacenamiento en la nube y YouTube Premium.
¿Qué es Gemini 3.5 Flash?
Gemini 3.5 Flash es el último modelo fundacional de nivel rápido de Google, lanzado el 19 de mayo de 2026. Google afirma que supera a Gemini 3.1 Pro en benchmarks de programación, agentes y multimodales, ejecutándose a aproximadamente 4 veces la velocidad de salida de modelos frontera comparables. Disponible en la app de Gemini, Search, Antigravity y la Gemini API.
¿Qué es Antigravity 2.0?
Antigravity es la plataforma de desarrollo de agentes de Google. La versión 2.0 añade herramientas de orquestación para que los desarrolladores puedan componer, programar y supervisar múltiples agentes interactuando. Apunta a la capa de infraestructura por debajo de los productos de agentes.
¿Qué anunció Google sobre gafas inteligentes en I/O 2026?
Google presentó nuevos dispositivos "gafas inteligentes" de clase Android XR, incluyendo Project Aura desarrollado con Xreal. Al menos tres asociaciones de gafas inteligentes se lanzan en otoño de 2026, posicionando a Google entre las gafas audio-first y los headsets XR completos. Todas impulsadas por Gemini.
¿Genra integrará Gemini Omni?
Sí. Genra está construido para que integrar un nuevo modelo sea un cambio de backend en lugar de un cambio de flujo de trabajo. Omni Flash se añadirá a la lógica de enrutamiento del agente tan pronto como esté disponible a través de la Gemini API. Los usuarios verán mejoras de calidad en la salida de formato corto sin cambiar su forma de trabajar.
¿Veo 3.1 sigue disponible después de I/O 2026?
Sí. Veo 3.1 sigue disponible a través de Google AI Studio y Vertex AI. Continúa siendo la opción de grado de producción para clips más largos, salida 4K y casos de uso que requieren consistencia de personaje mediante ID-embedding — capacidades que Omni Flash aún no soporta.
¿Qué significa I/O 2026 para los creadores de video con IA?
Tres cambios. Primero, la estrategia de modelos ahora abarca Omni para formato corto multimodal unificado y Veo 3.1 para formato largo y alta resolución — las pipelines reales enrutarán entre ambos. Segundo, el pensamiento de capa de agentes es ahora consenso a nivel de plataforma, no solo una apuesta de posicionamiento de startup. Tercero, la edición conversacional se está convirtiendo en una capacidad básica que todas las herramientas de video con IA tendrán que igualar.
Sobre el autor
Chris Sherman cubre tecnología de video con IA, arquitecturas de agentes y el negocio de la producción creativa. Sigue a @GenraAI para cobertura continua del panorama de video con IA post-I/O y la audiencia de MiniMax (29 de mayo).