Récap Google I/O 2026 : pas de Veo 4 — mais Gemini Omni et Spark officialisent la couche d'agents

Pendant deux mois, toute l'industrie de la vidéo IA n'a parlé que de Veo 4. Il n'est pas sorti. Ce que Google a annoncé à I/O 2026 était plus important et plus étrange : un modèle multimodal unifié nommé Gemini Omni, un agent résidant 24/7 dans le cloud nommé Spark, un palier AI Ultra à 100 $ qui réinitialise le plancher tarifaire grand public, et un signal clair que Google considère désormais la couche d'agents comme la prochaine bataille de plateforme. Voici l'analyse complète.

Sundar Pichai est monté sur la scène du Shoreline Amphitheatre hier et a donné à l'industrie de la vidéo IA quelque chose qu'elle n'attendait pas. Pas de Veo 4. Aucun titre estampillé « Veo ». À la place, quelque chose de stratégiquement plus intéressant : Gemini Omni, un modèle multimodal qui gère nativement la génération de texte, d'image, d'audio et de vidéo dans un seul système ; Gemini Spark, un agent IA personnel qui vit sur une VM cloud et agit en votre nom 24 heures sur 24 ; et une restructuration tarifaire qui place un plan AI Ultra à 100 $ au cœur du pari IA grand public de Google.

La keynote a réécrit le scénario des 12 prochains mois de vidéo IA. Voici tout ce que Google a annoncé, ce que cela signifie réellement et où en est l'industrie de la vidéo IA au lendemain.

Gemini Omni : le titre que personne n'a prédit

L'annonce la plus lourde de conséquences a été Gemini Omni — une nouvelle série de modèles que Google décrit comme le premier système de génération multimodale véritablement unifié de l'entreprise. Là où la gamme précédente de Google séparait les capacités entre Veo (vidéo), Imagen (image) et d'autres systèmes enchaînés, Omni gère la génération texte, image, audio et vidéo nativement dans un seul modèle.

Le premier modèle public du cadre Omni est Omni Flash. Il accepte des entrées combinées texte, image et audio, et produit de courtes vidéos cinématographiques avec son synchronisé. Google a montré des utilisateurs téléchargeant une image fixe, donnant des instructions à voix haute et récupérant une scène animée avec audio natif qui répond à la direction parlée. L'édition est conversationnelle — on affine un clip en disant ce qu'il faut changer, au lieu de réécrire un prompt et de regénérer à partir de zéro.

Trois choses rendent Omni stratégiquement différent de la lignée Veo :

Un seul modèle, pas une pile. Veo 3 avait déjà du son natif, mais la pile créative plus large de Google reposait encore sur le chaînage de modèles distincts pour la génération d'image, la production audio et l'édition. Omni replie cette chaîne. L'implication stratégique : Google estime que le prochain saut de qualité vient de l'entraînement conjoint entre modalités, pas de la mise à l'échelle continue de modèles purement vidéo.
Génération ancrée dans le monde. Demis Hassabis a positionné Omni comme une continuation du travail sur les modèles du monde de Google DeepMind. L'argument : Omni génère des vidéos avec une cohérence spatiale, temporelle et physique plus forte parce que le modèle sous-jacent a une représentation interne du monde plus riche. Que la sortie le démontre en pratique est une question que nous allons benchmarker au prochain trimestre.
L'édition comme capacité de première classe. Omni est positionné non seulement comme un générateur, mais aussi comme un éditeur. L'affinage conversationnel, les changements de scène et les opérations de type remix font partie de la surface produit, pas d'une couche externe. C'est un déplacement notable de philosophie produit auquel les concurrents devront répondre.

Ce qu'Omni ne fait pas actuellement : le format long. Omni Flash est en format court, et Google a été explicite sur le fait que des flux de production plus longs et plus avancés sont prévus mais pas encore livrés. Ceux qui espéraient une génération narrative de 60 secondes en une seule prise attendent toujours.

Gemini Spark : un agent personnel 24/7 dans le cloud

Si Omni a été le titre que la plupart des commentateurs ont mal lu, Spark a été l'annonce la plus sous-estimée.

Gemini Spark est un agent IA personnel qui vit sur une VM Google Cloud dédiée, s'exécute en continu et agit en votre nom à travers les produits Google et une liste croissante de services tiers via Model Context Protocol (MCP). La description produit, dans les termes de Google : un agent qui peut « réserver des restaurants, passer une commande Instacart et rédiger les réponses de votre boîte de réception pendant que vous dormez ».

L'importance stratégique est difficile à surestimer. Pendant deux ans, l'histoire IA grand public de Google a été Gemini comme chatbot. Spark, c'est Google qui dit explicitement que le chatbot était le mauvais cadre — le bon cadre est un agent autonome qui opère à travers les applications et le temps. L'agent lit votre boîte de réception, agit dans vos outils, planifie à travers les services et fait le rapport. L'utilisateur décrit les résultats ; Spark gère l'exécution.

C'est la même thèse que l'industrie de la vidéo IA débat depuis un an, appliquée à la productivité générale. La couche d'agents n'est plus un pari de positionnement de startup. C'est désormais le pari de positionnement de Google.

Le prix compte ici. Spark est verrouillé derrière le nouveau palier AI Ultra à 100 $/mois et se déploie en bêta pour les abonnés américains la semaine prochaine. Le prix seul signale que Google pense qu'il existe une population significative d'utilisateurs prêts à payer neuf fois plus que le palier Gemini Pro à 11 $ pour obtenir un agent qui fait vraiment des choses.

Gemini 3.5 : la mise à jour fondationnelle

Sous les annonces Omni et Spark se trouve un rafraîchissement du modèle de fondation. Gemini 3.5 Flash a été lancé hier dans l'application Gemini, Search, Antigravity et la Gemini API. L'affirmation de Google : il dépasse Gemini 3.1 Pro sur les benchmarks de codage, d'agents et multimodaux, tout en fonctionnant à environ 4 fois la vitesse de tokens de sortie des modèles frontières comparables.

Gemini 3.5 Pro est annoncé mais pas encore disponible en général. Il est en test et sort le mois prochain.

Le motif à travers Flash, Pro, Omni et Spark est cohérent : chaque produit que Google a annoncé à I/O est construit sur le rail des capacités agentiques. Suivi d'instruction plus rapide, contexte effectif plus long, meilleure utilisation des outils et exécution multi-étapes plus fiable. La couche modèle est façonnée pour servir la couche d'agents au-dessus.

Antigravity 2.0 : l'histoire pour les développeurs

Antigravity est la plateforme de développement d'agents de Google. Hier, elle a reçu une mise à niveau 2.0 axée sur l'orchestration — permettant aux développeurs de composer, planifier et superviser plusieurs agents qui interagissent entre eux et avec des outils externes.

La pertinence pour la vidéo IA est indirecte mais réelle. À mesure que de plus en plus d'outils de vidéo IA passent de wrappers à modèle unique à de véritables pipelines orchestrés, l'infrastructure sous-jacente pour exécuter, surveiller et déboguer ces orchestrations devient une dépendance fondamentale. Antigravity 2.0, c'est Google qui essaie de posséder cette couche d'infrastructure de la même façon qu'il possède la couche modèle en dessous.

Si les constructeurs d'agents indépendants s'appuieront sur l'infrastructure de Google ou construiront la leur est l'une des questions ouvertes les plus intéressantes émergeant de cette keynote. La réponse détermine combien de l'économie des agents Google capte par rapport à ce qui reste véritablement ouvert.

Le palier AI Ultra à 100 $ : une remise à zéro du plancher tarifaire

Google AI Ultra démarre désormais à 100 $ par mois, avec un palier supérieur à 200 $. Le plan Ultra précédent était à 250 $. Le nouveau palier d'entrée inclut l'accès à la bêta de Gemini Spark, 5x la limite d'usage de l'application Gemini du palier Pro à 20 $, 20 To de stockage cloud et YouTube Premium.

La lecture stratégique est simple : Google tarifie l'IA grand public premium de manière agressive pour capter les early adopters qui définiront à quoi ressemble un produit agent. À 100 $/mois, Spark est désormais en concurrence directe avec le haut de gamme de ChatGPT Pro et des paliers Claude grand public. La capacité d'agent est le différenciateur — et c'est une fonctionnalité dont les concurrents devront livrer des versions dans les 12 prochains mois, sous peine de céder la catégorie agent de productivité.

Pour les créateurs et opérateurs, la question pertinente est de savoir si 100 $/mois pour un agent personnel accélère significativement le travail. La réponse honnête et précoce : cela dépend entièrement de savoir si la bêta Spark tient les promesses de la démo. Les démos sont des démos. Nous le saurons dans 90 jours.

Android XR et Project Aura : la surface matérielle

Google a aussi dévoilé de nouveaux dispositifs de « lunettes intelligentes », dont Project Aura, les lunettes intelligentes de classe XR développées en partenariat avec Xreal. Au moins trois partenariats de lunettes intelligentes sont lancés cette année, positionnant Google entre les Ray-Ban audio-first de Meta et les casques XR complets.

L'angle IA : elles sont propulsées par Gemini. Contexte visuel en direct, interaction vocale et action agentique — tout en port permanent. Pour la vidéo IA, les implications sont en aval mais réelles. Une caméra portée avec contexte Gemini devient un périphérique d'entrée permanent pour la création vidéo, à la fois pour la capture de référence et pour l'édition en direct en déplacement. Nous sommes à 18 mois de l'impact sur les flux de production. Nous sommes à zéro mois de l'impact sur les démos grand public.

Android 17 : l'OS comme couche d'intelligence

La mise à jour Android de Sameer Samat a positionné l'OS lui-même comme passant « d'un système d'exploitation à un système d'intelligence ». Le cadrage — Gemini comprend le contexte à travers les apps, anticipe les besoins et agit pour l'utilisateur — est la même thèse de couche d'agents appliquée à la plateforme mobile.

Les fonctionnalités concrètes comptent moins que le cadrage. Google s'engage dans un avenir où la couche OS et la couche d'agents s'effondrent en une seule pile, le tout fonctionnant sur des modèles de fondation Gemini. Pour les développeurs, cela signifie que la conception d'app consciente des agents n'est plus un motif optionnel ; c'est l'hypothèse de base autour de laquelle Google construit la plateforme.

Ce qui n'est pas sorti : l'absence de Veo 4

L'annonce attendue la plus surveillée qui ne s'est pas produite : Veo 4. Pas de révélation Veo 4, pas de calendrier Veo 4, et pas de confirmation explicite que Veo est en train d'être déprécié au profit de la ligne Omni.

Lecture la plus probable : Google consolide ses efforts de vidéo générative sous Omni plutôt que de continuer des développements Veo parallèles. Omni Flash est positionné comme le nouveau point de départ. Veo 3.1 reste l'option de niveau production pour les cas d'usage qu'Omni Flash ne couvre pas encore — en particulier la génération mono-prise plus longue, la sortie 4K et la cohérence de personnage via ID-embedding, qu'Omni Flash ne supporte pas actuellement.

Pour l'industrie de la vidéo IA au sens large, c'est un pivot significatif. Dix-huit mois de conversation sur « que fera Veo ensuite » ont été remplacés par « qu'est-ce qu'Omni ». Les opérateurs avec une automatisation spécifique à Veo devront évaluer s'il faut attendre qu'Omni mûrisse sur le format long, ou maintenir la production sur Veo 3.1 dans un avenir prévisible. Probablement les deux, en parallèle, sur différents types de contenu.

Ce que cela signifie pour les opérateurs de vidéo IA

En prenant du recul par rapport aux annonces individuelles, trois choses ont changé hier qui façonneront la vidéo IA pour l'année à venir.

Premièrement, la stratégie modèle est devenue plus désordonnée d'une manière utile. Omni est un pari multimodal unifié, mais Omni Flash est uniquement en format court. Veo 3.1 fait toujours le gros du travail pour les clips plus longs et les résolutions plus élevées. Les vrais pipelines de production utiliseront les deux, achemineront entre eux et basculeront dynamiquement à mesure qu'Omni mûrit. La couche d'agents est là où vit cette logique de routage.

Deuxièmement, la pensée en couche d'agents est désormais consensus. Spark, c'est Google qui dit à voix haute que le cadrage chatbot était une étape de transition et que la destination est un agent autonome. Chaque équipe produit IA grand public et entreprise qui débattait de la question de construire « un assistant » ou « un agent » a reçu une réponse tranchée. La couche d'agents est là où va la compétition.

Troisièmement, l'édition conversationnelle change les flux des créateurs. L'accent d'Omni sur l'édition dans le chat — affiner un clip en décrivant ce qu'il faut changer — replie ce qui était un processus en deux étapes générer-puis-éditer. Pour les créateurs de vidéo IA, c'est une simplification UX significative que les concurrents devront égaler. Le pipeline de Genra prend déjà en charge l'itération conversationnelle ; attendez-vous à ce que chaque plateforme vidéo IA sérieuse livre une version de cela dans les six mois.

Ce que Genra fait ensuite

Quelques notes honnêtes sur la direction que prend Genra à partir d'ici.

Omni Flash sera intégré dès qu'il sera disponible via la Gemini API. La couche d'agents que Genra construit a été conçue pour être indépendante du modèle précisément pour que des ajouts comme Omni deviennent des changements de backend, pas des changements de flux de travail. Les utilisateurs verront une meilleure sortie format court à mesure que la logique de routage commence à choisir Omni Flash pour les plans où il excelle. Les cas d'usage en format long, 4K et haute cohérence continuent de tourner sur Veo et Seedance.

Le cadrage de Spark comme agent résidant 24/7 dans le cloud est la validation la plus proche que nous aurions pu demander de la thèse de la couche d'agents. Genra est un agent spécifique de domaine pour la production vidéo. Spark est un agent généraliste pour la productivité personnelle. Les deux coexistent confortablement — de la même façon qu'un agent CRM et un agent de codage coexistent avec un assistant de productivité général.

Le cadre concurrentiel plus large : avec Google désormais engagé sur la couche d'agents au niveau plateforme, la question pour chaque startup vidéo IA n'est plus « les agents sont-ils l'avenir » — c'est réglé. La question est de savoir quels agents spécifiques de domaine deviennent le choix de confiance dans leur catégorie. Pour la vidéo IA, c'est la question à laquelle Genra est construit pour répondre.

Points clés à retenir

Google I/O 2026 n'a pas livré Veo 4. L'annonce phare vidéo a été Gemini Omni, un modèle multimodal unifié gérant la génération texte, image, audio et vidéo dans un seul système, avec Omni Flash comme premier modèle public.
Gemini Spark, un agent personnel résidant 24/7 dans le cloud qui agit à travers les produits Google et les services tiers connectés via MCP, est l'annonce stratégiquement la plus significative. Elle engage Google dans la couche d'agents comme prochaine bataille de plateforme.
Gemini 3.5 Flash a été lancé hier ; Gemini 3.5 Pro est en test pour le mois prochain. Chaque mise à jour de fondation a été cadrée autour des capacités agentiques, pas seulement de l'intelligence.
AI Ultra a été retarifé à 100 $/mois en entrée (200 $ palier supérieur), en baisse par rapport au précédent Ultra à 250 $. L'accès bêta Spark est restreint au palier 100 $ pour les abonnés américains la semaine prochaine.
Antigravity 2.0 étend la plateforme de développement d'agents de Google avec un outillage d'orchestration — le coup d'infrastructure pour les constructeurs d'agents.
Les lunettes intelligentes Android XR et Project Aura, plus le cadrage « système d'intelligence » d'Android 17, étendent la thèse des agents aux couches matérielle et OS.
Omni Flash est uniquement format court. Veo 3.1 reste l'outil de production pour la vidéo plus longue, plus haute résolution et avec cohérence d'ID. Les vrais pipelines achemineront entre les deux.
L'édition conversationnelle comme capacité de première classe dans Omni est un changement de flux que les concurrents devront égaler dans les six mois.
Genra intègre Omni Flash dès que l'accès API est disponible, les utilisateurs voyant la hausse de qualité sur les plans courts acheminés silencieusement. Le travail en format long, 4K et critique en cohérence continue sur Veo et Seedance.

Questions fréquentes

Google a-t-il annoncé Veo 4 à I/O 2026 ?

Non. Il n'y a eu aucune annonce Veo 4. Google a introduit à la place la série de modèles Gemini Omni, avec Omni Flash comme premier modèle publiquement disponible. L'interprétation la plus probable est que Google consolide le travail vidéo génératif sous le cadre Omni plutôt que de continuer des générations Veo parallèles.

Qu'est-ce que Gemini Omni ?

Gemini Omni est la nouvelle série de modèles multimodaux unifiés de Google, capable de générer du texte, de l'image, de l'audio et de la vidéo nativement à partir d'entrées combinées. Omni Flash est le premier modèle public, axé sur la vidéo format court avec audio natif synchronisé et édition conversationnelle.

Qu'est-ce que Gemini Spark ?

Gemini Spark est un agent IA personnel résidant 24/7 dans le cloud qui s'exécute sur une VM Google dédiée, s'intègre aux produits Google et à plus de 30 services tiers via MCP, et agit pour le compte de l'utilisateur — réservation, commande, rédaction et gestion des tâches. Il est déployé en bêta pour les abonnés AI Ultra américains la semaine prochaine.

Combien coûte Google AI Ultra en 2026 ?

Le nouveau palier d'entrée AI Ultra est de 100 $ par mois, en baisse par rapport à 250 $. Un palier supérieur est à 200 $. Le plan 100 $ comprend l'accès bêta à Gemini Spark, 5x la limite d'usage de l'app Gemini du palier Pro, 20 To de stockage cloud et YouTube Premium.

Qu'est-ce que Gemini 3.5 Flash ?

Gemini 3.5 Flash est le dernier modèle de fondation rapide de Google, lancé le 19 mai 2026. Google affirme qu'il dépasse Gemini 3.1 Pro sur les benchmarks de codage, d'agents et multimodaux à environ 4x la vitesse de sortie des modèles frontières comparables. Disponible dans l'app Gemini, Search, Antigravity et la Gemini API.

Qu'est-ce qu'Antigravity 2.0 ?

Antigravity est la plateforme de développement d'agents de Google. La version 2.0 ajoute un outillage d'orchestration pour que les développeurs puissent composer, planifier et superviser plusieurs agents en interaction. Elle cible la couche d'infrastructure sous les produits d'agents.

Qu'est-ce que Google a annoncé sur les lunettes intelligentes à I/O 2026 ?

Google a dévoilé de nouveaux dispositifs « lunettes intelligentes » de classe Android XR, dont Project Aura développé avec Xreal. Au moins trois partenariats de lunettes intelligentes se lancent à l'automne 2026, positionnant Google entre les lunettes audio-first et les casques XR complets. Toutes propulsées par Gemini.

Genra va-t-il intégrer Gemini Omni ?

Oui. Genra est construit pour que l'intégration d'un nouveau modèle soit un changement de backend plutôt qu'un changement de flux de travail. Omni Flash sera ajouté à la logique de routage de l'agent dès qu'il sera disponible via la Gemini API. Les utilisateurs verront des améliorations de qualité sur la sortie format court sans changer leur façon de travailler.

Veo 3.1 est-il toujours disponible après I/O 2026 ?

Oui. Veo 3.1 reste disponible via Google AI Studio et Vertex AI. Il continue d'être l'option de niveau production pour les clips plus longs, la sortie 4K et les cas d'usage nécessitant une cohérence de personnage via ID-embedding — capacités qu'Omni Flash ne supporte pas encore.

Que signifie I/O 2026 pour les créateurs de vidéo IA ?

Trois changements. Premièrement, la stratégie modèle s'étend désormais à Omni pour le format court multimodal unifié et Veo 3.1 pour le format long et haute résolution — les vrais pipelines achemineront entre les deux. Deuxièmement, la pensée en couche d'agents est désormais consensus au niveau plateforme, pas seulement un pari de positionnement de startup. Troisièmement, l'édition conversationnelle devient une capacité de base que tous les outils de vidéo IA devront égaler.

À propos de l'auteur
Chris Sherman couvre la technologie vidéo IA, les architectures d'agents et le business de la production créative. Suivez @GenraAI pour une couverture continue du paysage vidéo IA post-I/O et de l'audience MiniMax (29 mai).