Robin Li déclare la fin de l'ère du modèle — la vidéo IA le prouve depuis des mois

· Chris Sherman

Le PDG de Baidu a ouvert Create 2026 à Pékin aujourd'hui en retirant « quel modèle est le meilleur ? » comme question pertinente. Pour la vidéo IA, cela ne fait qu'officialiser un consensus vieux de quatre mois.

La phrase qui a recadré l'industrie

Robin Li, cofondateur et PDG de Baidu, est monté sur la scène de Baidu Create 2026 à Pékin le 14 mai 2026 et a livré une phrase qui sera citée tout le reste de l'année : l'industrie IA, a-t-il dit, est passée de la « compétition des modèles » à « l'ère de l'agent ». Il l'a couplée à une proposition concrète — la nouvelle métrique doit être Daily Active Agents (DAA), l'équivalent ère-de-l'agent du DAU de l'internet mobile, avec une projection DAA mondiale dépassant à terme les 10 milliards.

Si vous suivez le marché de la vidéo IA depuis quatre mois, rien de tout cela n'est une prédiction. C'est une description.

Sora 2 s'est effondré en 84 jours sous le poids d'une stratégie modèle uniquement. HappyHorse 1.0 a pris Arena #1 en 48 heures et a instantanément compressé l'écart technique significatif entre modèles vidéo frontière à environ zéro. Seedance 2.0, Veo 3.1 et le Gemini Omni fuité convergent tous au même point d'arrivée architectural. La question « quel modèle est le meilleur ? » a cessé d'être intéressante quelque part entre février et avril. Aujourd'hui, Robin Li est devenu le premier PDG de grande plateforme à le dire à haute voix.

Ce billet porte sur ce que ça signifie pour la vidéo IA — ce que Li a dit, ce que Baidu a livré aujourd'hui et pourquoi un keynote sur la couche applicative à Pékin se révèle être la description la plus précise du paysage concurrentiel pour la seconde moitié 2026.

Ce que Li a réellement dit

Trois choses à retenir, toutes dans son propre cadrage.

1. La « théorie de l'évolution IA » — un changement en trois couches

Li a exposé ce qu'il a appelé une « théorie de l'évolution IA » : transformation simultanée à trois couches. Les agents évoluent de répondeurs passifs en exécutants autonomes qui apprennent continuellement de leur environnement. Les individus évoluent d'utilisateurs ordinaires en « super individus » qui coexistent avec l'IA pour multiplier leur production. Les entreprises évoluent de collaboration humain-humain en formations humain-agent mixtes opérant comme super-organisations unifiées.

Retirez l'emballage rhétorique et le cœur est clair : la migration de valeur s'éloigne de la capacité brute du modèle et se dirige vers la couche qui orchestre la capacité en résultats. C'est la couche d'agent. Tout au-dessus du modèle — quoi est généré, quand, par quel agent, pour quel utilisateur, au service de quel objectif — est là où vit la valeur de la prochaine décennie.

2. Daily Active Agents (DAA) — une nouvelle métrique

Li a proposé DAA comme successeur ère-de-l'agent du DAU. L'argument : les tokens mesurent le coût, pas la valeur — c'est une métrique d'entrée, pas de sortie. Les agents actifs, à l'inverse, mesurent à quelle fréquence un logiciel autonome fait réellement un travail utile pour quelqu'un. Il a projeté que le DAA mondial pourrait à terme dépasser 10 milliards.

Le chiffre est-il le bon ou non, le cadrage compte. DAU récompensait l'engagement (temps passé en app). DAA récompense l'autonomie productive (travail accompli sans intervention de l'utilisateur). Les implications de design pour les outils de création vidéo sont très différentes.

3. « Logiciel jetable » — applications comme artefacts jetables

Le troisième fil : à mesure que le coût de génération de code s'effondre, les barrières au développement logiciel tombent, et les applications uniques ou « jetables » deviennent viables. Les utilisateurs génèrent un logiciel sur mesure pour une tâche unique et le jettent. Li a cité l'agent de codage Miaoda de Baidu — qui générerait environ 90 % de son propre code — comme exemple fonctionnel.

Pour la vidéo, l'analogie est évidente. L'agent qui génère une pub de 60 secondes n'est pas une fonction dans un outil ; c'est une construction temporaire, spécifique à une tâche, qui existe le temps du projet. Pipeline assemblé, modèles routés, sortie rendue, agent dissous.

Ce que Baidu a réellement livré aujourd'hui

Quatre annonces, toutes positionnées comme preuves de la thèse plutôt que comme lancements autonomes.

ProduitCe que c'estPourquoi ça compte
DuMateAgent généraliste — produit horizontal phare de BaiduTir direct sur le positionnement Operator/ChatGPT-as-agent d'OpenAI
Miaoda (app + entreprise)Agent de codage générant ~90 % de son propre codeLa thèse « logiciel jetable » concrétisée
Baidu YiJing (mise à jour)Plateforme multi-agent d'humains numériques pour streaming et génération vidéo temps réelLe lancement le plus directement pertinent pour les créateurs vidéo IA
Famou Agent 2.0Plateforme d'agents auto-évolutifsL'autonomie apprenante continue est le pari DAA long terme

L'intéressant pour notre sujet est YiJing. C'est une plateforme multi-agent d'humains numériques — c'est-à-dire que le système n'est pas un modèle vidéo unique avec une interface chat collée dessus. C'est une couche d'orchestration qui coordonne plusieurs agents spécialisés pour le streaming et la génération en temps réel : un agent pour le script, un pour la diction et la sync labiale, un pour la caméra et le choix de plan, un pour la réaction audience, un pour la logique produit/promo. Le modèle vidéo est quelque part en dessous, traité comme composant interchangeable.

Si vous vouliez une démonstration en un produit de la thèse ère-de-l'agent appliquée à la vidéo, YiJing l'est. Le pitch n'est plus « nous avons le meilleur modèle vidéo ». C'est « nous orchestrons les meilleurs agents par-dessus n'importe quel modèle vidéo qui gagne actuellement ».

Pourquoi maintenant, et pas il y a six mois

Cette thèse circule depuis un an dans les cercles techniques. Ce qui fait du keynote de Li du 14 mai un vrai point d'inflexion — et non une énième conférence — c'est la pile de preuves empiriques arrivée dans les quatre mois précédents.

  1. L'effondrement économique de Sora 2. Le modèle vidéo grand public phare d'OpenAI a fermé en 84 jours parce que 15 M$/jour d'inférence contre 2,1 M$ de revenus, c'est ce qui se passe en pariant une stratégie modèle uniquement à l'échelle grand public. Voir notre post-mortem.
  2. L'ascension instantanée de HappyHorse 1.0. Le modèle unifié audio-vidéo d'Alibaba a pris Arena #1 en 48 heures avec architecture 15B paramètres. Voir notre test.
  3. Convergence architecturale. Seedance 2.0, HappyHorse 1.0 et Gemini Omni fuité pointent tous vers la même destination — modèles unifiés audio-vidéo à entrées multimodales.
  4. Compression des prix. Les prix d'API vidéo de haut de gamme se sont effondrés de 0,50 $/s (Veo 3.1) vers 0,05 $/s (HappyHorse 1.0).

Li n'a pas prédit le changement. Il l'a nommé. La différence est significative, et c'est elle qui rend ce keynote citable pour le reste de 2026.

Ce que l'ère de l'agent signifie pour la vidéo IA

1. La question « quel modèle dois-je utiliser ? » est obsolète

La bonne question est « quel stack d'agent route mon travail vers le meilleur modèle pour chaque plan ? ». Veo 3.1 peut être meilleur pour le mouvement à physique élevée. HappyHorse 1.0 pour la parole synchronisée. Seedance 2.0 pour les séquences multi-plans. Kling 3.0 pour l'esthétique stylisée. Le job de l'agent est de savoir ce qui va avec quoi et de router automatiquement.

2. La qualité de sortie cesse d'être affaire de capacité de modèle

Elle devient affaire de qualité de traduction de prompt, de décomposition de plans, de gestion de continuité entre plans, de vérification de sync audio-vidéo — choses que le modèle lui-même ne fait pas bien. Ce sont des problèmes de couche d'agent.

3. L'unité de différenciation passe de « modèle » à « workflow »

Si vous êtes un outil, vous ne concourez pas sur « nous utilisons Veo 3.1 ». Vous concourez sur ce que votre agent fait par-dessus Veo 3.1, Seedance 2.0, HappyHorse, Kling, Luma et Runway combinés. C'est la thèse centrale de notre bilan mi-2026.

4. DAA recadre la métrique de succès pour les outils créateurs

Les outils optimisés pour DAU poussent l'utilisateur à bricoler — plus d'itérations de prompt, plus de boutons, plus de re-rendus. Les outils optimisés pour DAA poussent à déléguer — moins d'interactions, plus d'autonomie, plus de travail accompli par session. Les deux philosophies de design sont incompatibles.

5. Les « agents jetables » deviennent l'unité du travail créatif

Au lieu d'un outil permanent à paramètres persistants, chaque projet a son agent sur mesure — assemblé pour le brief, optimisé pour la contrainte, dissous à la livraison.

Ce que ça signifie pour vous

Si vous êtes créateur individuel

Arrêtez de benchmarker des modèles. Commencez à benchmarker des workflows. La question utile des 60 prochains jours n'est pas « HappyHorse est-il meilleur que Veo pour mon travail ? » — c'est « mon outil actuel route-t-il entre modèles intelligemment, ou je fais le routing à la main ? ». Si vous le faites à la main, vous absorbez du travail qui devrait être absorbé par la couche au-dessus du modèle.

Si vous construisez un produit vidéo

Traitez vos intégrations modèle comme configuration, pas comme code. La cadence — Omni la semaine prochaine, ce qu'Anthropic livrera ensuite, ce que ByteDance livrera en T3 — garantit que coder en dur sur un modèle spécifique est une bombe à six mois. Construisez votre différenciation dans la couche d'agent.

Si vous dirigez une équipe créative entreprise

Les « formations humain-agent mixtes » de Li ne sont pas un slogan. C'est un objectif opérationnel concret — petites équipes humaines supervisant grandes flottes d'agents, avec le rôle humain dans jugement, rédaction de brief et contrôle qualité.

Trois signaux à surveiller à partir d'ici

Signal 1 : Google I/O 2026 (19–20 mai)

Si Gemini Omni sort comme modèle omni-modalité unifié avec interface agent-native (édition pilotée par chat, remix en ligne, templates de workflow), Google avalise implicitement la même thèse. Sinon, Google joue encore à la compétition des modèles.

Signal 2 : L'audience Hailuo/MiniMax (29 mai)

Disney, Warner Bros. et NBCUniversal contre MiniMax devant le juge Blumenfeld le 29 mai. Si l'affaire avance sur le fond, l'infrastructure légale pour « agents qui routent entre modèles vidéo » se complique — les agents deviennent responsables de ce que les modèles routés ont produit.

Signal 3 : Adoption DAA par les grandes plateformes

Regardez si OpenAI, Anthropic, Meta ou Google adoptent DAA (ou métrique équivalente d'autonomie) dans leur prochaine publication trimestrielle.

Conclusion

Le plus utile dans le keynote de Li du 14 mai n'est pas qu'il a annoncé de nouveaux produits — DuMate, Miaoda et YiJing sont des réponses en forme de Baidu à un motif déjà là. Le plus utile, c'est qu'il a donné un nom et une métrique à un changement qui se passait discrètement sur le marché de la vidéo IA depuis quatre mois.

La couche modèle continue de bouger. Elle continuera. Gemini Omni la semaine prochaine, Seedance 3 en T3, ce qu'Anthropic et Meta enverront d'ici fin d'année. Rien ne va se stabiliser. C'est exactement le point. Quand la couche modèle est en mouvement permanent, le seul endroit durable où construire est un cran au-dessus — sur la couche d'agent, où les workflows capitalisent et l'orchestration s'améliore à l'usage.

Pour la vidéo IA, ce n'est pas de la spéculation. Nous opérons sur cette thèse depuis début 2026, c'est pourquoi Genra est construit comme un agent de bout en bout par-dessus Veo + Seedance plutôt que comme un frontal pour un modèle unique. Le job de l'agent est de router vers le bon modèle, gérer la continuité entre plans, synchroniser audio et mouvement, livrer le montage final sans faire de vous le moteur de routing. Le keynote de Li est l'aval public le plus explicite de ce choix d'architecture que nous ayons eu cette année.

Cinq jours jusqu'à Google I/O. Quinze jusqu'à l'audience MiniMax. Les deux prochaines semaines vous diront quelle part de l'industrie est d'accord avec ce que Li a dit aujourd'hui à Pékin.

FAQ

Qu'est-ce que Baidu Create 2026 ?

Conférence annuelle des développeurs IA de Baidu, 13–14 mai 2026 à Pékin. Le PDG Robin Li a utilisé le keynote du 14 pour déclarer l'ère de l'agent et proposer DAA comme métrique définissante.

Qu'a exactement annoncé Robin Li ?

Quatre produits : DuMate (agent généraliste), Miaoda app + entreprise (agent de codage générant ~90 % de son code), Baidu YiJing mis à jour et Famou Agent 2.0. Plus la métrique DAA et une théorie d'évolution IA en trois couches.

Que sont les Daily Active Agents (DAA) ?

Équivalent ère-de-l'agent du DAU. Mesure combien d'agents autonomes font du travail utile par jour. Li projette > 10 milliards à terme.

Pourquoi ça compte pour la vidéo IA ?

La vidéo IA a prouvé la thèse empiriquement en quatre mois — Sora 2 effondré, HappyHorse 1.0 rattrape la qualité en 48h, prix API top compressés 10×.

Qu'est-ce que le « logiciel jetable » appliqué à la vidéo ?

Cadrage de Li pour un monde où générer du code est assez bon marché pour assembler du logiciel à usage unique et le jeter. Pour la vidéo : ensembles d'agents par projet plutôt qu'outils permanents.

Que dois-je faire en tant que créateur ?

Arrêter de benchmarker les modèles isolément. Commencer à benchmarker les workflows. Si vous choisissez les modèles à la main, vous absorbez du travail qui appartient à la couche d'agent.


À propos de l'auteur
Chris Sherman couvre la technologie vidéo IA et les workflows de production créative. Suivez @GenraAI pour une couverture en direct de Google I/O 2026 (19–20 mai) et de l'audience MiniMax (29 mai).