Veille du I/O 2026 : 5 vraies questions sur la vidéo IA (pas 5 nouveaux modèles)

· Chris Sherman

Google I/O 2026 ouvre dans moins de 24 heures. Internet est saturé de posts prédisant Veo 4. Tout le monde pose la même question : quelles seront les specs du nouveau modèle ? C'est la mauvaise question. Les cinq questions qui façonnent réellement la vidéo IA en ce moment n'ont presque rien à voir avec celui qui gagne demain.

Nous sommes le soir du 18 mai 2026. Demain matin, Sundar Pichai monte sur scène pour annoncer la prochaine génération de Veo. Chaque créateur, marketeur et analyste de vidéo IA rafraîchit les mêmes timelines Twitter, à l'affût des specs leakées.

Un avis contre-intuitif : l'annonce de demain ne changera probablement pas grand-chose. Non parce qu'elle ne sera pas impressionnante — elle le sera très probablement. Mais parce que les vrais problèmes non résolus de la vidéo IA ont depuis longtemps dépassé le « quel modèle a le meilleur output ». Ces problèmes vivent une couche au-dessus, dans le fossé entre un clip et une vidéo finie. Un meilleur Veo ne comble pas ce fossé. Un meilleur agent, si.

Voici cinq questions plus importantes que la keynote de demain. Lisez-les, puis allez profiter du spectacle.

Question 1 : Pourquoi la cohérence entre clips se casse-t-elle encore ?

Chaque modèle de vidéo IA en 2026 sait produire un superbe clip de huit secondes. Relancez-le avec le même prompt et vous obtenez une autre personne, un autre produit, une autre couleur de marque, un autre décor. Le modèle n'a aucune mémoire entre deux générations.

Pour un plan cinématographique ponctuel, c'est très bien. Pour tout ce qui ressemble à une vraie vidéo — une démo produit sous trois angles, une pub avec un narrateur qui apparaît aux plans un et quatre, un module de cours avec un présentateur récurrent — c'est le problème dans son ensemble.

La réponse de la couche modèle, c'est le conditionnement par image de référence : on upload trois photos d'un personnage, le modèle essaie de les matcher. Ça marche peut-être à 70 %. Les 30 % restants, c'est là que part la majorité du temps de production réel.

La réponse de la couche agent est différente : maintenir un jeu de références par entité (personnage, produit, environnement) sur toute la séquence, regénérer automatiquement les plans qui échouent, verrouiller les seeds là où la cohérence compte, versionner les références pour que les assets de marque restent stables sur des mois de contenu. L'amélioration du modèle aide. L'orchestration, c'est ce qui rend la chose livrable.

Ce que demain ne réglera pas : Veo 4 sortira peut-être un ID-embedding natif. Ce sera mieux qu'aujourd'hui. Ça ne résoudra pas la cohérence pour un marketeur qui produit 40 clips par mois sur 8 SKU produits sans y penser.

Question 2 : Pourquoi confond-on encore « clip » avec « vidéo finie » ?

Regardez n'importe quelle démo de modèle et vous voyez la même chose : un plan unique, parfaitement éclairé, sans coupe, sans sous-titres, sans musique, sans cadrage adapté à la plateforme, sans CTA. C'est un clip. Ce n'est pas une vidéo que quelqu'un publierait réellement.

Une vraie vidéo — celle qui part sur une chaîne YouTube, dans un feed TikTok, sur un compte publicitaire, sur une page produit — a un script, un découpage de scènes, une voix off, de la B-roll, des sous-titres dans la langue cible, des coupes sur le beat, un hook dans les trois premières secondes et un format de sortie adapté à sa plateforme de destination. Le modèle gère une de ces choses. Les dix autres sont le problème manuel de quelqu'un.

La solution par défaut aujourd'hui, c'est de coudre cinq outils ensemble : rédacteur de script, modèle vidéo, générateur de voix, éditeur, outil de sous-titrage. Chacun avec son UI, sa tarification, ses modes d'échec. Résultat : pour quiconque prend la qualité au sérieux, la « vidéo IA » prend encore des heures par asset fini.

La réponse de la couche agent, c'est de posséder tout le pipeline comme un seul système. Brief en langage naturel en entrée, vidéo finie en sortie. Genra tourne sur Veo et Seedance et gère chaque étape intermédiaire. Ce n'est pas une amélioration de workflow. C'est une autre catégorie de produit.

Ce que demain ne réglera pas : Veo 4 produira de meilleurs clips. Le fossé entre clip et vidéo finie reste exactement là où il est.

Le 29 mai 2026, l'affaire MiniMax sur le droit d'auteur entre en phase d'audience. C'est le premier grand procès de copyright sur la vidéo IA à atteindre une étape de décision substantielle, et l'issue créera un précédent avec lequel toute l'industrie devra vivre pendant des années.

Parmi les questions soumises au tribunal : un modèle peut-il être entraîné sur des images protégées par le droit d'auteur sans licence ? Qui est responsable lorsqu'un clip généré par IA ressemble de manière substantielle à une scène protégée — le fournisseur du modèle, la plateforme ou l'utilisateur final ? Que signifie même « substantiellement similaire » quand le modèle a vu des millions de vidéos d'entraînement ?

C'est plus important que la keynote de demain pour une raison : une annonce de Veo 4, c'est un produit. Une décision de copyright, c'est une contrainte qui façonne tous les produits. Si la décision tombe d'un côté, les hypothèses de safe harbor sous lesquelles opèrent aujourd'hui tous les fournisseurs occidentaux de vidéo IA sont rebattues. Si elle tombe de l'autre, le fossé autour des données d'entraînement devient un véritable actif défendable.

Les créateurs et équipes de marque malins n'attendent pas la décision. Ils traitent la vidéo IA commerciale comme quelque chose qui nécessite une chaîne de preuves défendable — quels modèles ont été utilisés, quelles références ont été uploadées, quels consentements ont été obtenus. Le pipeline de Genra enregistre cela par défaut, parce que nous nous attendons à ce que le plancher réglementaire continue de bouger.

Ce que demain ne réglera pas : Google n'évoquera pas l'affaire MiniMax à l'I/O. Le paysage juridique sous les pieds de tout le monde continue de bouger quelles que soient les specs avec lesquelles Veo 4 sort.

Question 4 : Où part réellement une vidéo IA finie ?

Vous avez généré une vidéo. Et après ? Elle doit atterrir sur YouTube en 16:9, sur TikTok en 9:16, sur Instagram Reels avec sous-titres incrustés pour l'autoplay, sur votre landing page en MP4 embarqué, sur une plateforme de pub payante avec les trois premières secondes recoupées en variante de hook, et sur votre liste e-mail sous forme de vignette pointant vers un lecteur hébergé.

Chaque destination a son propre format d'image, sa limite de durée, sa taille de fichier maximale, son format de sous-titres, ses exigences d'accessibilité, son intégration analytics. Le modèle produit un seul rendu. Le travail de distribution est un projet séparé, plus gros, en grande partie manuel.

C'est la partie de la vidéo IA que personne ne démontre à l'I/O. C'est aussi celle qui détermine si la vidéo rapporte de l'argent ou dort dans un dossier.

La réponse de la couche agent, c'est de faire de la distribution un output de première classe. Même brief, plusieurs cuts natifs par plateforme, générés en parallèle, optimisés pour le comportement réel de chaque surface — l'algorithme de TikTok ne récompense pas la même structure de hook que YouTube Shorts, et Instagram Reels privilégie une toute première image complètement différente.

Ce que demain ne réglera pas : Une meilleure génération ne résout pas la distribution. Les plateformes restent fragmentées. Le travail pour s'adapter à chacune reste le même. La couche agent l'assume, ou l'utilisateur l'assume.

Question 5 : Quand la vidéo IA cesse-t-elle d'être un centre de coût ?

Google a rendu Veo 3.1 gratuit en avril. Le coût de génération des clips individuels s'est effondré pour quiconque accepte un filigrane et un plafond de 8 secondes. Les modèles gratuits sont partout. Alors pourquoi les budgets vidéo IA dans la plupart des entreprises continuent-ils de croître ?

Parce que le coût du modèle n'a jamais été le goulet d'étranglement. Le goulet d'étranglement, c'est le travail autour : le prompt engineering, le collage manuel, le babysitting de la cohérence, le découpage par plateforme, les boucles d'itération avec les parties prenantes, le QA de marque. Un modèle gratuit fait s'effondrer la ligne budgétaire qui était déjà une erreur d'arrondi et laisse la vraie structure de coûts intacte.

Les entreprises qui ont fait passer la vidéo IA de « expérience » à « infrastructure » l'ont fait en traitant la couche agent comme unité de coût, pas le modèle. Elles mesurent le coût par vidéo finie livrée, pas le coût par clip généré. Ces chiffres pointent vers une conclusion différente de celle que suggère le récit du modèle gratuit.

Pour la plupart des équipes, le chemin pour que la vidéo IA devienne un centre de profit ressemble à ça : posséder le pipeline brief-à-finie dans un seul outil, éliminer la taxe de couture entre cinq outils, mesurer l'output par semaine et par opérateur, et laisser la couche modèle se commoditiser en dessous. Le coût du modèle tend vers zéro. Le coût de la couche agent, c'est ce qui détermine l'unit economics.

Ce que demain ne réglera pas : Même si Veo 4 sort gratuit, votre budget vidéo IA va probablement croître le trimestre prochain. La ligne qui s'étend, ce n'est pas l'utilisation du modèle. C'est tout ce qui l'entoure.

Le vrai point

La keynote de demain sera un beau show. Le 4K natif arrive. Les narratifs multi-scènes arrivent. Une génération plus rapide arrive. Nous intégrerons chaque amélioration significative que Google sortira, parce que de meilleurs modèles rendent réellement chaque vidéo sur Genra un peu meilleure.

Mais les cinq questions ci-dessus ne sont pas résolues par un meilleur modèle. Elles le sont par un meilleur agent, un cadre juridique qui mûrit et une industrie qui cesse de confondre démos et production.

Regardez la keynote demain. Puis revenez vous demander si quoi que ce soit a réellement fait bouger l'aiguille sur la cohérence, sur le clip-à-finie, sur le copyright, sur la distribution ou sur l'unit economics réel. Notre prédiction : un peu sur la première, presque rien sur le reste.

La couche modèle, c'est le titre. La couche agent, c'est le travail.

Points clés à retenir

  • Google I/O 2026 sera dominé par les prédictions et annonces autour de Veo 4. Le modèle est une couche dans un stack bien plus haut.
  • La cohérence entre clips est surtout un problème d'orchestration, pas un problème de modèle. L'ID-embedding natif aide ; il ne comble pas le fossé pour quelqu'un qui livre 40 clips par mois.
  • Un clip n'est pas une vidéo finie. Script, voix off, B-roll, sous-titres, cuts par plateforme et distribution sont autant de problèmes séparés que le modèle ne touche pas.
  • L'audience MiniMax sur le copyright le 29 mai façonnera la régulation de la vidéo IA plus que n'importe quelle annonce à l'I/O. Les opérateurs devraient logger la provenance maintenant, pas plus tard.
  • La fragmentation de la distribution entre YouTube, TikTok, Instagram, ads et e-mail est une taxe de production en soi. La couche agent l'assume, ou l'utilisateur l'assume.
  • Les modèles gratuits font s'effondrer la ligne la moins chère de la production de vidéo IA. L'unit economics réelle est déterminée par tout ce qui entoure le modèle — la couche agent.
  • Genra tourne sur Veo et Seedance et gère tout le pipeline comme un seul agent. Les améliorations de modèle de demain s'intégreront silencieusement au backend. Les cinq vraies questions restent à leur place.

Foire aux questions

Qu'est-ce que la couche agent en vidéo IA ?

La couche agent, c'est le système qui transforme un brief en vidéo finie et distribuable. Elle gère le script, le découpage de scènes, la sélection de modèle, la génération, la cohérence, la voix off, le montage, le sous-titrage et l'output spécifique à chaque plateforme. La couche modèle génère des clips. La couche agent livre des vidéos.

Veo 4 va-t-il résoudre la cohérence en vidéo IA ?

Partiellement. Si Veo 4 sort avec un ID-embedding natif comme attendu, la cohérence sur un plan unique s'améliore. La cohérence multi-clip, multi-tournage, stable côté marque sur un pipeline de contenu continu nécessite toujours de l'orchestration — gestion des références, logique de regénération, verrouillage de seeds, contrôle de version. Le modèle aide. L'agent fait le travail.

Qu'est-ce que l'affaire MiniMax et pourquoi c'est important ?

L'affaire MiniMax est le premier grand dossier de copyright sur la vidéo IA à atteindre une audience substantielle, prévue pour le 29 mai 2026. La décision influencera l'interprétation des données d'entraînement, de la responsabilité sur l'output du modèle et de la similarité substantielle dans toute l'industrie. L'issue façonne la régulation pour les fournisseurs occidentaux comme asiatiques.

Si Veo 3.1 est gratuit, pourquoi produire de la vidéo IA ne l'est-il pas ?

Parce que le modèle n'a jamais été la partie chère. La partie chère, c'est le travail autour du modèle — itération de prompts, collage manuel, QA de cohérence, découpage par plateforme, allers-retours avec les parties prenantes. Les modèles gratuits font s'effondrer la ligne la moins chère. Le vrai coût de production vit dans la couche agent.

Quels modèles utilise Genra ?

Veo et Seedance. L'agent choisit quel modèle utiliser pour chaque plan en fonction des besoins. Les utilisateurs décrivent ce qu'ils veulent ; l'agent gère la sélection de modèle et le reste du pipeline.

C'est quand, Google I/O 2026 ?

19–20 mai 2026. La keynote d'ouverture commence le 19 mai à 13h00 ET / 10h00 PT, diffusée gratuitement sur io.google. Les annonces Veo et Gemini tombent généralement dans les 90 premières minutes.

Comment les marques devraient-elles se préparer à l'incertitude sur le copyright en vidéo IA ?

Loguez la provenance de chaque vidéo : quels modèles ont généré chaque clip, quels matériaux de référence ont été uploadés, quel consentement ou licence existe pour ces références. Traitez l'audit trail comme un livrable, pas comme un après-coup. Le plancher juridique continuera de bouger pendant les deux prochaines années.

Pourquoi la distribution par plateforme demande-t-elle encore autant de travail manuel ?

Parce que chaque plateforme a ses propres formats d'image, plafonds de durée, formats de sous-titres, schémas de hook et préférences algorithmiques. Un seul rendu fonctionne rarement bien sur toutes les surfaces. Soit l'agent génère des variantes natives par plateforme à partir du même brief, soit quelqu'un recoupe à la main.


À propos de l'auteur
Chris Sherman couvre la technologie de la vidéo IA, les architectures agent et le business de la production créative. Suivez @GenraAI pour la couverture en direct de Google I/O 2026 (19–20 mai) et de l'audience MiniMax (29 mai).