Robin Li declara o fim da era do modelo — o vídeo IA prova isso há meses

· Chris Sherman

O CEO da Baidu abriu o Create 2026 em Pequim hoje aposentando «qual modelo é o melhor?» como a pergunta que importa. Para o vídeo IA, isso apenas oficializou um consenso de quatro meses.

A frase que reenquadrou a indústria

Robin Li, cofundador e CEO da Baidu, subiu ao palco do Baidu Create 2026 em Pequim em 14 de maio de 2026 e entregou uma frase que será citada pelo resto do ano: a indústria IA, disse, passou da «competição de modelos» e entrou na «era do agent». Ele a emparelhou com uma proposta concreta — a nova métrica deve ser Daily Active Agents (DAA), o equivalente era-do-agent do DAU da internet móvel, com a projeção global de DAA eventualmente superando 10 bilhões.

Se você acompanha o mercado de vídeo IA nos últimos quatro meses, nada disso é previsão. É descrição.

O Sora 2 colapsou em 84 dias sob o peso de uma estratégia só-modelo. O HappyHorse 1.0 pegou o Arena #1 em 48 horas e comprimiu instantaneamente o gap técnico significativo entre modelos de vídeo de fronteira para aproximadamente zero. Seedance 2.0, Veo 3.1 e o vazado Gemini Omni convergem para o mesmo ponto arquitetural. A pergunta «qual modelo é o melhor?» deixou de ser interessante em algum momento entre fevereiro e abril. Hoje, Robin Li se tornou o primeiro CEO de grande plataforma a dizer isso em voz alta.

Este texto é sobre o que isso significa especificamente para o vídeo IA — o que Li disse, o que a Baidu realmente entregou hoje e por que um keynote sobre a camada de aplicação em Pequim acaba sendo a descrição mais precisa que temos do panorama competitivo para a segunda metade de 2026.

O que Li realmente disse

1. A «teoria da evolução IA» — mudança em três camadas

Li expôs o que chamou de «teoria da evolução IA»: transformação simultânea em três camadas. Agents evoluem de respondedores passivos a executores autônomos que aprendem continuamente do ambiente. Indivíduos evoluem de usuários comuns a «super indivíduos» que coexistem com IA para multiplicar sua produção. Empresas evoluem de colaboração humano-humano para formações humano-agent mistas operando como super-organizações unificadas.

Tirando a retórica, o núcleo é claro: a migração de valor se afasta da capacidade bruta do modelo e vai para a camada que orquestra capacidade em resultados. Essa é a camada de agent. Tudo acima do modelo — o que é gerado, quando, por qual agent, para qual usuário, a serviço de qual objetivo — é onde vive o valor da próxima década.

2. Daily Active Agents (DAA) — uma nova métrica

Li propôs DAA como sucessora era-do-agent do DAU. Argumento: tokens medem custo, não valor — métrica de entrada, não de saída. Agents ativos medem com que frequência software autônomo faz trabalho útil para alguém. Projetou DAA global superando 10 bilhões.

3. «Software descartável» — aplicações como artefatos descartáveis

Terceiro fio: à medida que custos de geração de código colapsam, as barreiras ao desenvolvimento caem e aplicações de uso único se tornam viáveis. Usuários geram software sob medida para uma tarefa e descartam. Li citou o agent de codificação Miaoda da Baidu — que gera ~90% do próprio código — como exemplo funcional.

O que a Baidu realmente entregou hoje

ProdutoO que éPor que importa
DuMateAgent de propósito geral — produto horizontal carro-chefeTiro direto no Operator/ChatGPT-as-agent da OpenAI
Miaoda (app + enterprise)Agent de codificação gerando ~90% do próprio códigoTese de «software descartável» concretizada
Baidu YiJing (atualizado)Plataforma multi-agent de humanos digitais para livestream e geração de vídeo em tempo realLançamento mais diretamente relevante para criadores de vídeo IA
Famou Agent 2.0Plataforma de agent auto-evolutivoAutonomia com aprendizado contínuo é a jogada DAA de longo prazo

O interessante para o nosso tema é o YiJing. É uma plataforma multi-agent de humanos digitais — ou seja, o sistema não é um único modelo de vídeo com chat acoplado. É uma camada de orquestração que coordena vários agents especializados para livestream e geração em tempo real: um agent para roteiro, um para entrega e sync labial, um para câmera e enquadramento, um para reação de audiência, um para lógica de produto/promo. O modelo de vídeo está em algum lugar abaixo, tratado como componente intercambiável.

Por que agora, não há seis meses

  1. Colapso econômico do Sora 2. Modelo de vídeo de consumo carro-chefe da OpenAI fechou em 84 dias. Post-mortem.
  2. Ascensão instantânea do HappyHorse 1.0. Modelo unificado áudio-vídeo da Alibaba pegou Arena #1 em 48 horas. Resenha.
  3. Convergência arquitetural. Seedance 2.0, HappyHorse 1.0 e Gemini Omni apontam para o mesmo destino.
  4. Compressão de preços. Preços de API top de vídeo de US$ 0,50/s (Veo 3.1) para US$ 0,05/s (HappyHorse 1.0).

Li não previu a mudança. Nomeou.

O que a era do agent significa para o vídeo IA

1. «Qual modelo devo usar?» ficou obsoleto

A correta é «qual stack de agent roteia meu trabalho para o melhor modelo em cada plano?». Veo 3.1 pode ser melhor para movimento de alta física. HappyHorse 1.0 para fala sincronizada. Seedance 2.0 para sequências multi-shot. Kling 3.0 para estética estilizada. O trabalho do agent é saber e rotear automaticamente.

2. Qualidade de saída deixa de depender de capacidade do modelo

Depende de qualidade de tradução de prompt, decomposição de planos, gestão de continuidade, verificação de sync áudio-vídeo — coisas que o modelo sozinho não faz bem.

3. Unidade de diferenciação migra de «modelo» para «workflow»

Se é uma ferramenta, não compete com «usamos Veo 3.1». Compete com o que seu agent faz em cima de Veo 3.1, Seedance 2.0, HappyHorse, Kling, Luma e Runway combinados. Tese central do balanço de meados de 2026.

4. DAA reenquadra a métrica de sucesso para ferramentas de criador

Ferramentas otimizadas para DAU empurram o usuário a mexer — mais iterações, mais botões, mais re-renders. Ferramentas otimizadas para DAA empurram para delegar — menos interações, mais autonomia, mais trabalho por sessão.

5. «Agents descartáveis» se tornam a unidade de trabalho criativo

Em vez de ferramenta permanente com configurações persistentes, cada projeto tem seu agent personalizado — montado para o brief, otimizado para a restrição, dissolvido na entrega.

O que isso significa para você

Se você é criador individual

Pare de fazer benchmark de modelos. Comece a fazer benchmark de workflows. A pergunta útil dos próximos 60 dias não é «HappyHorse é melhor que Veo para o meu trabalho?» — é «minha ferramenta atual roteia entre modelos de forma inteligente, ou faço isso manualmente?». Se manual, está absorvendo trabalho que deveria ser absorvido pela camada acima do modelo.

Se você constrói um produto de vídeo

Trate suas integrações de modelo como configuração, não código. O ritmo de releases garante que hardcoding em um modelo específico é uma bomba-relógio de seis meses.

Se você lidera um time criativo empresarial

As «formações humano-agent mistas» de Li não são slogan. É objetivo operacional concreto.

Três sinais para observar daqui

Sinal 1: Google I/O 2026 (19–20 de maio)

Se o Gemini Omni sair como modelo omni-modalidade unificado com interface agent-nativa, Google avaliza implicitamente a mesma tese.

Sinal 2: Audiência Hailuo/MiniMax (29 de maio)

Disney, Warner Bros. e NBCUniversal contra MiniMax perante o juiz Blumenfeld em 29 de maio.

Sinal 3: Adoção de DAA pelas grandes plataformas

Observe se OpenAI, Anthropic, Meta ou Google adotam DAA (ou métrica equivalente) na próxima divulgação trimestral.

Conclusão

O mais útil no keynote de Li não foi anunciar produtos — DuMate, Miaoda e YiJing são respostas em formato Baidu a um padrão que já existia. O mais útil foi dar nome e métrica a uma mudança que vinha acontecendo silenciosamente no mercado de vídeo IA por quatro meses.

A camada de modelo continua se movendo. Continuará. Gemini Omni semana que vem, Seedance 3 no Q3, o que Anthropic e Meta entregarem até o fim do ano. Nada vai se acomodar. Esse é exatamente o ponto. Quando a camada de modelo está em movimento permanente, o único lugar durável para construir é uma camada acima — na camada de agent, onde workflows capitalizam e orquestração melhora com o uso.

Para o vídeo IA, não é especulação. Operamos com essa tese desde o início de 2026, e por isso o Genra é construído como agent ponta a ponta sobre Veo + Seedance em vez de frontend para um único modelo. O trabalho do agent é rotear para o modelo certo, gerenciar continuidade entre planos, sincronizar áudio e movimento, e entregar o corte final sem fazer de você o motor de roteamento. O keynote de Li é o aval público mais explícito dessa escolha arquitetural que tivemos este ano.

Cinco dias até o Google I/O. Quinze até a audiência MiniMax. As próximas duas semanas dirão quanto da indústria concorda com o que Li disse hoje em Pequim.

FAQ

O que é o Baidu Create 2026?

Conferência anual de desenvolvedores IA da Baidu, 13–14 de maio de 2026 em Pequim. CEO Robin Li usou o keynote do dia 14 para declarar a era do agent e propor DAA como nova métrica definidora.

O que Robin Li realmente anunciou?

Quatro produtos: DuMate (agent geral), Miaoda app + enterprise (~90% autocódigo), Baidu YiJing atualizado e Famou Agent 2.0. Mais a métrica DAA e teoria de evolução IA em três camadas.

O que são Daily Active Agents (DAA)?

Equivalente era-do-agent do DAU. Mede quantos agents autônomos fazem trabalho útil por dia. Li projeta > 10 bilhões global.

Por que importa especificamente para vídeo IA?

Vídeo IA provou a tese empiricamente em quatro meses — Sora 2 colapsou, HappyHorse 1.0 fechou gap em 48h, preços top de API comprimidos 10×.

O que é «software descartável» aplicado a vídeo?

Conjuntos de agent específicos por projeto em vez de ferramentas permanentes.

O que devo fazer como criador?

Parar de fazer benchmark de modelos isoladamente. Começar com workflows.


Sobre o autor
Chris Sherman cobre tecnologia de vídeo IA e fluxos de produção criativa. Siga @GenraAI para cobertura ao vivo do Google I/O 2026 (19–20 de maio) e da audiência MiniMax (29 de maio).