Robin Li declara terminada la era del modelo — el vídeo IA llevaba meses probándolo
· Chris ShermanEl CEO de Baidu abrió Create 2026 en Pekín hoy retirando «¿qué modelo es el mejor?» como pregunta clave. Para el vídeo IA, esto solo hace oficial un consenso de cuatro meses.
La frase que reencuadró la industria
Robin Li, cofundador y CEO de Baidu, subió al escenario de Baidu Create 2026 en Pekín el 14 de mayo de 2026 y dejó una frase que se citará el resto del año: la industria IA, dijo, ha superado la «competencia de modelos» y ha entrado en «la era del agente». Lo emparejó con una propuesta concreta: la nueva métrica debe ser Daily Active Agents (DAA), el equivalente para la era del agente de los DAU del internet móvil, con una proyección global de DAA que finalmente supera los 10 000 millones.
Si has seguido el mercado del vídeo IA los últimos cuatro meses, nada de esto es una predicción. Es una descripción.
Sora 2 colapsó en 84 días bajo el peso de una estrategia solo de modelo. HappyHorse 1.0 se llevó el Arena #1 en 48 horas y comprimió instantáneamente la brecha técnica significativa entre modelos de vídeo de frontera a aproximadamente cero. Seedance 2.0, Veo 3.1 y el filtrado Gemini Omni convergen al mismo punto arquitectónico. La pregunta «¿qué modelo es el mejor?» dejó de ser interesante en algún momento entre febrero y abril. Hoy, Robin Li es el primer CEO de gran plataforma en decirlo en voz alta.
Este artículo trata de lo que eso significa específicamente para el vídeo IA: qué dijo Li, qué lanzó Baidu hoy y por qué un keynote sobre la capa de aplicación en Pekín resulta ser la descripción más precisa que tenemos del panorama competitivo para la segunda mitad de 2026.
Lo que Li dijo realmente
Tres cosas para extraer, todas en su propio encuadre.
1. La «teoría de la evolución IA» — un cambio en tres capas
Li expuso lo que llamó «teoría de la evolución IA»: transformación simultánea en tres capas. Los agentes evolucionan de respondedores pasivos a ejecutores autónomos que aprenden continuamente del entorno. Los individuos evolucionan de usuarios ordinarios a «super individuos» que coexisten con la IA para multiplicar su producción. Las empresas evolucionan de colaboración humano-humano a formaciones humano-agente mixtas que operan como super-organizaciones unificadas.
Quitando el envoltorio retórico, la afirmación nuclear es clara: el valor migra de la capacidad cruda del modelo a la capa que orquesta capacidad en resultados. Esa es la capa del agente. Todo por encima del modelo —qué se genera, cuándo, por qué agente, para qué usuario, al servicio de qué objetivo— es donde vive el valor de la próxima década.
2. Daily Active Agents (DAA) — una métrica nueva
Li propuso DAA como sucesora del DAU. El argumento: los tokens miden coste, no valor; son métrica de entrada, no de salida. Los agentes activos, en cambio, miden con qué frecuencia software autónomo hace trabajo útil para alguien. Proyectó que el DAA global podría finalmente superar los 10 000 millones.
Sea cierto o no ese número, el encuadre importa. DAU recompensaba el engagement (tiempo en app). DAA recompensa la autonomía productiva (trabajo terminado sin intervención del usuario). Las implicaciones de diseño para herramientas de creación de vídeo son muy distintas.
3. «Software desechable» — aplicaciones como artefactos descartables
El tercer hilo: a medida que el coste de generar código se desploma, las barreras de desarrollo caen y las aplicaciones «de un solo uso» se vuelven viables. Los usuarios generan software a medida para una sola tarea y lo descartan. Li citó el agente de codificación Miaoda de Baidu —que según se informa genera el ~90 % de su propio código— como ejemplo funcional.
Para vídeo, la analogía es obvia. El agente que genera un anuncio de 60 segundos no es una función dentro de una herramienta; es una construcción temporal, específica de tarea, que existe el tiempo que dure el proyecto. Pipeline ensamblada, modelos enrutados, salida renderizada, agente disuelto.
Lo que Baidu lanzó hoy
Cuatro anuncios de producto, todos posicionados como pruebas de la tesis, no como lanzamientos independientes.
| Producto | Qué es | Por qué importa |
|---|---|---|
| DuMate | Agente de propósito general — producto horizontal estrella de Baidu | Tiro directo al posicionamiento Operator/ChatGPT-as-agent de OpenAI |
| Miaoda (app + enterprise) | Agente de codificación generando ~90 % de su propio código | La tesis del «software desechable» hecha concreta |
| Baidu YiJing (actualizado) | Plataforma multi-agente de humanos digitales para directo y generación de vídeo en tiempo real | El lanzamiento más directamente relevante para creadores de vídeo IA |
| Famou Agent 2.0 | Plataforma de agentes autoevolutivos | Autonomía con aprendizaje continuo es la jugada DAA de largo plazo |
El interesante para nuestro tema es YiJing. Es una plataforma multi-agente de humanos digitales — es decir, no un único modelo de vídeo con chat añadido, sino una capa de orquestación que coordina varios agentes especializados para directo y generación en tiempo real: uno para guion, otro para entrega y sincronización labial, otro para cámara y selección de plano, otro para respuesta de audiencia, otro para lógica de producto/promo. El modelo de vídeo está en algún lugar debajo, tratado como componente intercambiable.
Si querías una demostración de un producto de la tesis de la era del agente aplicada al vídeo, YiJing lo es. El pitch ya no es «tenemos el mejor modelo de vídeo». Es «orquestamos los mejores agentes sobre cualquier modelo de vídeo que esté ganando».
Por qué aterriza ahora, no hace seis meses
Esta tesis lleva circulando un año en círculos técnicos. Lo que convierte el keynote de Li del 14 de mayo en un punto de inflexión real —y no en otra charla de conferencia— es la pila de evidencia empírica de los cuatro meses previos.
- Colapso económico de Sora 2. El modelo de vídeo de consumo estrella de OpenAI cerró en 84 días porque 15 M$/día de inferencia contra 2,1 M$ de ingresos es lo que pasa al apostar una estrategia solo-modelo a escala consumo. Ver nuestro post-mortem.
- Ascenso instantáneo de HappyHorse 1.0. El modelo unificado audio-vídeo de Alibaba se llevó Arena #1 en 48 horas con arquitectura de 15B parámetros. Ver la reseña.
- Convergencia arquitectónica. Seedance 2.0, HappyHorse 1.0 y el filtrado Gemini Omni apuntan al mismo destino — modelos unificados audio-vídeo con entradas multimodales.
- Compresión de precios. Precios de API de vídeo top han colapsado de 0,50 $/s (Veo 3.1) hacia 0,05 $/s (HappyHorse 1.0). Modelos que cuestan lo mismo y se ven igual no pueden ser base de foso.
Li no predijo el cambio. Lo nombró. La diferencia es significativa, y es la que hace este keynote citable durante el resto de 2026.
Qué significa la era del agente para el vídeo IA
Cinco reencuadres concretos.
1. La pregunta «¿qué modelo uso?» queda obsoleta
La correcta es «¿qué stack de agente enruta mi trabajo al mejor modelo para cada plano?». Veo 3.1 puede ser mejor para movimiento de alta física. HappyHorse 1.0 para habla sincronizada. Seedance 2.0 para secuencias multi-plano. Kling 3.0 para estética estilizada. El trabajo del agente es saber qué es qué y enrutar automáticamente.
2. La calidad de salida deja de depender de la capacidad del modelo
Pasa a depender de la calidad de traducción del prompt, de descomposición de planos, de gestión de continuidad y de verificación de sincronía audio-vídeo — nada que el modelo haga bien. Son problemas de capa de agente. Dos equipos con los mismos modelos producirán salidas muy distintas porque sus agentes son muy distintos.
3. La unidad de diferenciación pasa de «modelo» a «workflow»
Si eres herramienta, no compites en «usamos Veo 3.1». Compites en lo que tu agente hace sobre Veo 3.1, Seedance 2.0, HappyHorse, Kling, Luma y Runway combinados. Es la tesis central de nuestro balance de mediados de 2026, y el keynote de Li es su validación pública.
4. DAA reencuadra la métrica de éxito para herramientas de creador
Las herramientas optimizadas para DAU empujan al usuario a juguetear — más iteraciones de prompt, más botones, más re-renders. Las optimizadas para DAA empujan a delegar — menos interacciones, más autonomía, más trabajo por sesión. Las dos filosofías de diseño son incompatibles, y la segunda es la que Li acaba de bendecir.
5. Los «agentes desechables» se vuelven la unidad del trabajo creativo
El encuadre más novedoso. En lugar de herramienta permanente con ajustes persistentes, cada proyecto tiene su agente a medida — ensamblado para el brief, optimizado para la restricción, disuelto al entregar.
Qué significa para ti
Si eres creador individual
Deja de hacer benchmark de modelos. Empieza a hacer benchmark de workflows. La pregunta útil de los próximos 60 días no es «¿es HappyHorse mejor que Veo para mi trabajo?», sino «¿mi herramienta enruta entre modelos de forma inteligente, o lo hago yo a mano?». Si lo haces a mano, absorbes trabajo que debería absorber la capa superior al modelo.
Si construyes un producto de vídeo
Trata las integraciones de modelo como configuración, no como código. El ritmo de releases — Omni la semana que viene, lo siguiente de Anthropic, lo de ByteDance en Q3 — garantiza que codificar un modelo específico es una bomba de relojería a seis meses. Construye la diferenciación en la capa de agente.
Si diriges un equipo creativo empresarial
Las «formaciones humano-agente mixtas» de Li no son lema. Son objetivo operativo concreto — equipos humanos pequeños supervisando flotas grandes de agentes, con rol humano en juicio, redacción de brief y control de calidad. La pregunta competitiva de los próximos 18 meses: ¿puede tu equipo producir 10× output con la misma plantilla delegando ejecución a agentes?
Tres señales a vigilar desde aquí
Señal 1: Google I/O 2026 (19–20 de mayo)
Si Gemini Omni sale como modelo omni unificado con interfaz nativa de agente (edición por chat, remix in-line, plantillas de workflow), Google avala implícitamente la misma tesis. Si sale como modelo de vídeo independiente con acceso a API, Google sigue jugando al juego de la competencia de modelos.
Señal 2: La audiencia Hailuo/MiniMax (29 de mayo)
Disney, Warner Bros. y NBCUniversal contra MiniMax ante el juez Blumenfeld el 29 de mayo. Si avanza en el fondo, la infraestructura legal para «agentes que enrutan entre modelos de vídeo» se complica — los agentes pasan a ser responsables de lo que produjeron los modelos a los que enrutaron.
Señal 3: Adopción de DAA por grandes plataformas
Mira si OpenAI, Anthropic, Meta o Google adoptan DAA (o métrica equivalente de autonomía) en su próxima publicación trimestral. Si lo hacen, gana el encuadre de Li por defecto.
Conclusión
Lo más útil del keynote de Li no es que anunció productos — DuMate, Miaoda y YiJing son respuestas con forma de Baidu a un patrón ya existente. Lo más útil es que dio nombre y métrica a un cambio que llevaba cuatro meses ocurriendo en silencio en el mercado del vídeo IA.
La capa de modelo seguirá moviéndose. Gemini Omni la semana que viene, Seedance 3 en Q3, lo que Anthropic y Meta envíen hasta fin de año. Nada se asentará. Ese es el punto. Cuando la capa de modelo está en movimiento permanente, el único sitio duradero para construir está una capa por encima — en la capa del agente, donde los workflows componen y la orquestación mejora con el uso.
Para el vídeo IA no es especulación. Llevamos operando con esta tesis desde inicios de 2026, por eso Genra está construido como agente extremo a extremo sobre Veo + Seedance en lugar de como frontal para un único modelo. El trabajo del agente es enrutar al modelo correcto, gestionar continuidad entre planos, sincronizar audio y movimiento, y entregar el corte final sin convertirte en el motor de enrutado. El keynote de Li es el respaldo público más explícito de esa elección arquitectónica que hemos tenido este año.
Cinco días hasta Google I/O. Quince hasta la audiencia MiniMax. Las dos próximas semanas dirán cuánto de la industria está de acuerdo con lo que Li dijo hoy en Pekín.
FAQ
¿Qué es Baidu Create 2026?
Conferencia anual de desarrolladores IA de Baidu, 13–14 de mayo de 2026 en Pekín. El CEO Robin Li usó el keynote del 14 para declarar la era del agente y proponer DAA como métrica definitoria.
¿Qué anunció Robin Li exactamente?
Cuatro productos: DuMate (agente general), Miaoda app + enterprise (agente de codificación ~90 % autocódigo), Baidu YiJing actualizado y Famou Agent 2.0. Además, la métrica DAA y una teoría de evolución IA en tres capas.
¿Qué son los Daily Active Agents (DAA)?
Equivalente para la era del agente de DAU. Mide cuántos agentes autónomos hacen trabajo útil al día. Li proyecta global > 10 000 millones.
¿Por qué importa específicamente para el vídeo IA?
El vídeo IA ha probado la tesis empíricamente en cuatro meses — Sora 2 colapsó con estrategia solo-modelo, HappyHorse 1.0 cerró la brecha de calidad en 48 horas, precios top de API comprimidos 10×.
¿Qué es «software desechable» aplicado a vídeo?
Encuadre de Li para un mundo donde generar código es lo bastante barato como para que los usuarios ensamblen software de un solo uso y lo descarten. Para vídeo: conjuntos de agentes específicos por proyecto en vez de herramientas permanentes.
¿Qué debo hacer como creador?
Dejar de hacer benchmark de modelos aisladamente. Empezar a hacerlo de workflows. Si escoges modelos a mano, absorbes trabajo que pertenece a la capa de agente.
Sobre el autor
Chris Sherman cubre tecnología de vídeo IA y flujos de producción creativa. Sigue a @GenraAI para cobertura en vivo de Google I/O 2026 (19–20 de mayo) y la audiencia MiniMax (29 de mayo).