Gemini Omni : ce que la fuite pré-I/O révèle vraiment
· Chris Sherman2 mai : une chaîne d'UI. 11 mai : les premiers clips générés. 19–20 mai : l'annonce. Six jours avant le keynote de Google — voici ce que l'on sait de Gemini Omni, et ce que l'on ignore.
Une fuite en deux actes
Pour un modèle qui n'a pas encore été annoncé, Gemini Omni a connu un préambule étonnamment bien documenté. La piste commence le 2 mai 2026, quand un utilisateur de X a repéré une chaîne d'UI cachée dans l'onglet de génération vidéo de Gemini : « Start with an idea or try a template. Powered by Omni. » TestingCatalog a publié le même jour. La chaîne est restée là neuf jours pendant que tout le monde spéculait.
Puis, le 11 mai 2026, le deuxième pavé est tombé. Des clips générés — clairement produits par autre chose que le Veo 3.1 public — ont fuité depuis au moins un compte Gemini Pro. Deux ont retenu le plus d'attention : une scène de spaghettis dans un restaurant en bord de mer, et un professeur réalisant des démonstrations trigonométriques au tableau. Tous deux ont été repris par 9to5Google, Android Authority, Chrome Unboxed et une douzaine d'autres médias en 24 heures.
Le prochain événement majeur est Google I/O 2026, les 19–20 mai. Au moment où vous lisez ceci, ce sera probablement dans six jours. Google a confirmé que Gemini et les mises à jour IA sont à l'ordre du jour. Le nom Omni n'a pas été confirmé.
Cet article est l'instantané du 13 mai — le milieu de l'intervalle. Ce qui est réel, ce qui est spéculation, ce que les clips suggèrent et ce qu'il faut réellement surveiller quand le keynote commencera. Nous mettrons à jour après l'I/O.
Chronologie en un coup d'œil
| Date | Événement | Fiabilité |
|---|---|---|
| 2 mai 2026 | Chaîne d'UI « Powered by Omni » découverte dans l'onglet vidéo de Gemini | Élevée — capture circulant |
| 2–10 mai 2026 | Phase de spéculation. Pas de sortie concrète, mais plusieurs médias confirment la chaîne | Vérifié |
| 11 mai 2026 | Des clips fuitent d'un compte Gemini Pro — notamment la scène spaghettis et le professeur au tableau | Élevée — plusieurs médias rapportent indépendamment les mêmes clips |
| 11–12 mai | Chaîne d'UI étendue : « Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more » | Vérifié |
| 19–20 mai 2026 | Keynote Google I/O 2026 — annonce officielle probable | Programmé (pas encore eu lieu) |
Deux choses ressortent. Premièrement, la fuite s'est produite dans le produit, pas via une indiscrétion marketing — Google semble avoir commencé à déployer Omni à un petit sous-ensemble d'utilisateurs Gemini Pro avant l'annonce, et le déploiement était suffisamment visible pour être capturé. C'est un signal beaucoup plus crédible qu'une fuite presse. Deuxièmement, la seconde chaîne d'UI (« remix your videos, edit directly in chat, try templates ») vous dit que Google le positionne comme un produit de workflow, pas seulement un modèle — des formulations comme « edit directly in chat » et « remix » relèvent du langage produit grand public, pas du langage benchmark.
Ce que montrent réellement les deux clips
Les deux clips fuités constituent l'information la plus concrète disponible actuellement. Tous deux étaient courts — moins de 10 secondes — et ont été générés à partir de prompts texte dans ce que les utilisateurs ont décrit comme l'interface web de Gemini Pro.
Clip 1 : la scène des spaghettis
Un convive dans un restaurant en bord de mer mange des spaghettis, lumière de coucher de soleil, ambiance sonore méditerranéenne. Le point notable n'est pas la fidélité visuelle — elle est compétitive avec ce que Veo 3.1 fait déjà. Le point notable est que les spaghettis se comportent comme des spaghettis. Ils s'enroulent autour de la fourchette, retombent avec un poids, et le mouvement fourchette-vers-bouche respecte la continuité. Les scènes de nourriture à forte composante physique ont historiquement été un point faible des modèles vidéo — les ustensiles et la nourriture se déforment de façon non naturelle, les brins cassent, la gravité cesse de fonctionner à mi-parcours. Le clip fuité gère cela proprement, ce qui suggère que le modèle sous-jacent a un a priori physique nettement meilleur que le Veo 3.1 public.
Clip 2 : le professeur au tableau
Un professeur réalisant des démonstrations trigonométriques au tableau. La caméra reste sur le tableau pendant qu'il écrit. Ce qui est intéressant ici, c'est le rendu de texte et de formules. Les modèles vidéo IA sont notoirement mauvais en texte cohérent — les lettres dérivent entre les frames, les équations deviennent du charabia en cours de route, tout ce qui ressemble à des mathématiques s'effondre typiquement. Le clip du tableau fuité montre une notation mathématique reconnaissable rendue de façon cohérente d'un frame à l'autre, la main du professeur suivant correctement les traits. Ce n'est pas une amélioration mineure ; c'est une catégorie cassée depuis deux ans.
Ce qu'impliquent les deux clips ensemble
Si les clips fuités sont représentatifs — et il faut prendre ce « si » au sérieux, car Google sèmerait naturellement des clips qui montrent leur meilleure sortie — alors Omni cible deux des faiblesses connues les plus dures de la vidéo IA : la physique complexe et le rendu de texte à l'écran. Ce sont les deux mêmes points que la mise à l'arrêt de Sora 2 et le lancement de HappyHorse 1.0 ont tous deux mis en avant comme la prochaine frontière. (Pour le récit canonique, voir notre bilan mi-2026.)
Le choix du contenu de démonstration compte. Une scène de spaghettis et un cours de maths ne sont pas des démonstrations esthétiques — ce sont des démonstrations de capacité visant exactement les choses que la concurrence ne peut pas faire de façon fiable. Cela vous dit contre quoi Google positionne Omni.
Trois théories rivales sur ce qu'est réellement Omni
C'est là que vit la spéculation pré-I/O. Il y a trois interprétations plausibles de ce que représente Omni, et elles ont des implications très différentes pour le reste du marché.
Théorie 1 : un rebranding grand public de Veo 3.1
L'interprétation la plus simple : Omni n'est qu'un nouveau nom public pour la pipeline Veo existante dans l'app Gemini grand public. La stack de génération sous-jacente ne change pas. Google retire la marque « Veo » de la surface grand public, la conserve pour l'API entreprise Vertex AI, et donne à l'expérience de chat Gemini un nom de produit unifié.
Pour : Google a un historique de renommages. Bard → Gemini en a été l'exemple le plus visible. Le branding grand public autour de « Veo 3.1 » a toujours été maladroit — les numéros de version ne se vendent pas aux utilisateurs non techniques. Les chaînes d'UI (« remix your videos, edit directly in chat ») mettent l'accent sur le workflow, pas sur la nouveauté du modèle.
Contre : Les clips fuités montrent une capacité qui dépasse visiblement Veo 3.1 public, en particulier en physique et en rendu de texte. Un pur rebranding ne produirait pas une sortie visiblement différente. À moins que Google ne livre discrètement un Veo 3.2 sous la marque Omni, cette théorie n'explique pas les clips.
Théorie 2 : un modèle vidéo séparé entraîné dans Gemini
L'interprétation intermédiaire : Omni est un nouveau modèle vidéo entraîné au sein de la lignée Gemini — séparé de la pipeline Veo de DeepMind — et se place aux côtés de Veo dans la feuille de route de Google plutôt que de le remplacer. Gemini grand public utilise Omni ; les clients entreprise sur Vertex AI continuent d'utiliser Veo. Les deux évoluent en parallèle.
Pour : Google a historiquement maintenu des lignes de modèles parallèles (Gemini pour le grand public, lignes de recherche distinctes pour l'entreprise). Le saut de capacité dans les clips fuités est cohérent avec un modèle entraîné sur un mélange de données et une architecture différents de Veo 3.1.
Contre : Faire tourner deux lignes de modèles vidéo haut de gamme coûte cher. Le retrait de Sora 2, couvert dans notre post-mortem, a montré que même OpenAI ne pouvait soutenir un seul modèle vidéo grand public à l'échelle ; en faire tourner deux serait un choix stratégique étrange pour Google.
Théorie 3 : un modèle omni unifié (image + vidéo + audio en une seule passe)
L'interprétation la plus ambitieuse : Omni est le premier membre d'une nouvelle famille de modèles entraînée dans Gemini qui gère la génération d'image, la génération de vidéo et l'audio synchronisé en une seule passe avant. C'est l'architecture qu'HappyHorse 1.0 a inaugurée en prenant la #1 de l'Arena en avril avec un modèle audio-vidéo unifié de 15 milliards de paramètres. Selon cette théorie, Omni remplace à la fois la pipeline Veo actuelle (vidéo) et la stack Nano Banana Pro (image) par un seul générateur multimodal.
Pour : Le nom même du produit — « Omni » — implique fortement une portée multimodale. Le cadrage UI (« our new video model, remix your videos, edit directly in chat ») suggère une seule surface produit couvrant plusieurs modalités. La pression concurrentielle d'HappyHorse pour livrer une architecture unifiée est aiguë ; Google perd la place de tête sur Arena depuis avril. (Détails d'architecture dans notre test de HappyHorse 1.0.)
Contre : Les modèles omni unifiés sont techniquement difficiles, et Google a été plus prudent que ByteDance ou Alibaba pour pousser des architectures nouvelles vers le grand public. Remplacer deux pipelines de production simultanément est un coup à haut risque pour un keynote public.
Où sont les paris
Les observateurs du secteur se répartissent grossièrement 30/30/40 sur les trois théories. La lecture la plus probable, fondée sur le cadrage UI et le saut de capacité, est un hybride entre Théorie 2 et Théorie 3 : un nouveau modèle entraîné dans Gemini qui gère au moins la vidéo et l'audio de manière unifiée, Veo restant vivant sur Vertex AI pour les clients entreprise qui ont besoin de stabilité. Dans six jours, on saura.
Pourquoi cela compte au-delà de Google
Omni n'est pas intéressant parce que Google sort un nouveau modèle vidéo. De nouveaux modèles vidéo sortent chaque mois maintenant. Omni est intéressant à cause de ce que cela voudrait dire si la Théorie 3 était juste.
L'industrie de la vidéo IA a passé les quatre premiers mois de 2026 à voir se dérouler la thèse du modèle omni unifié. Sora 2 s'est effondré en 84 jours avec une architecture à pipelines séparées. HappyHorse 1.0 a pris la #1 d'Arena en 48 heures avec une architecture unifiée de 15B paramètres. Seedance 2.0 livre audio et vidéo ensemble via un transformeur à double branche. Le centre de gravité technique s'est déplacé vers les modèles unifiés pendant un trimestre entier, et le seul grand laboratoire occidental qui n'avait pas répondu était Google.
Si Omni est un vrai modèle unifié — Théorie 3 — alors Google rattrape la tendance architecturale établie par les leaders chinois. Cela a trois effets en aval :
- La marque Veo se consolide ou se retire. Maintenir un Veo à pipelines séparées aux côtés d'un Omni unifié plus de 12 mois n'a pas de sens. Les clients entreprise sur Vertex AI s'attendraient à une voie de migration.
- L'écart architectural Occident/Chine se referme. Le cadrage « les modèles chinois ont une avance structurelle parce qu'ils ont pionnier les architectures unifiées » s'affaiblit dès que Google livre la sienne.
- La différenciation au niveau du modèle continue de se compresser. Si quatre des six modèles de tête utilisent tous des architectures unifiées audio-vidéo, la couche modèle se banalise davantage et la couche agent devient le seul point de différenciation significatif. C'est la thèse centrale de notre bilan mi-2026, et Omni la prolongerait.
Si Omni n'est qu'un rebranding (Théorie 1), la plupart de cela ne s'applique pas. Mais les clips fuités font de la Théorie 1 la moins probable des trois.
Ce qu'il faut surveiller à I/O — checklist en six points
Quand le keynote commencera le 19 mai, voici ce qui vous dira quelle théorie était juste. Aucun signal seul n'est définitif, mais ensemble ils dessinent un tableau clair.
Signal 1 : Google dit-il encore « Veo » sur la scène du keynote ?
Si Veo est manifestement absent du segment Gemini grand public, c'est un indice que Veo se retire comme marque grand public. Si Veo est encore mentionné aux côtés d'Omni, les deux coexistent (Théorie 2). Si les deux sont mentionnés mais Veo n'est positionné que pour l'entreprise, la migration commence.
Signal 2 : Omni génère-t-il l'audio dans le même appel que la vidéo ?
Un seul appel API renvoyant vidéo + audio synchronisés est la signature technique d'un modèle omni unifié (Théorie 3). Deux appels API séparés — vidéo d'abord, puis un second appel pour la synthèse audio — c'est le motif architectural plus ancien. La démo du keynote le montrera probablement clairement.
Signal 3 : Omni gère-t-il aussi la génération d'image ?
Si Omni est positionné uniquement comme le nouveau modèle vidéo, le périmètre est plus étroit. Si Omni absorbe la génération d'image — remplaçant Nano Banana Pro dans la surface de chat Gemini — c'est un indice de la thèse multimodalité plus large. Surveillez si les démos de génération d'image dans le keynote sont attribuées à « Omni » ou restent estampillées Nano Banana / Imagen.
Signal 4 : y a-t-il une API dès le premier jour ?
Veo 3.1 a été lancé sur Vertex AI le jour un de son keynote. Si Omni sort avec un accès API public et un tarif les 19–20 mai, il est positionné pour la production immédiatement. S'il sort en grand public uniquement avec un accès API « plus tard cette année », Google prend la route retail-first de Sora 2 — et on a déjà vu qu'elle ne fonctionne pas économiquement à l'échelle.
Signal 5 : quelle est la structure tarifaire ?
Le benchmark actuel de tarification API top-tier va d'environ 0,05 $/s (HappyHorse 1.0) à 0,50 $/s (Veo 3.1). Si le tarif API d'Omni se rapproche de HappyHorse, Google se bat sur le coût ; s'il se rapproche de Veo 3.1, sur la qualité. Le choix vous dira quel marché Google priorise.
Signal 6 : comment Project Astra s'intègre-t-il ?
Google fait des démos de Project Astra — son assistant multimodal temps réel — à chaque I/O depuis 2024. Si Astra devient un produit les 19–20 mai et utilise Omni dessous, c'est la thèse « omni » plus large : non plus un simple modèle vidéo mais une surface IA multimodale temps réel à travers toute l'expérience Gemini.
Ce que cela signifie pour votre workflow
Trois points pratiques en attendant le keynote.
Si vous êtes créateur utilisant Gemini directement
Ne changez rien pour l'instant. Omni dans l'app Gemini grand public, s'il sort la semaine prochaine, remplacera ou améliorera simplement l'expérience de génération vidéo existante. La formulation « remix your videos, edit directly in chat » suggère le même workflow piloté par chat que vous connaissez déjà, avec un modèle plus intelligent dessous. Attendez l'annonce, essayez les nouvelles capacités, ajustez vos prompts en fonction de ce qui change vraiment.
Si vous construisez sur Vertex AI
Surveillez attentivement le Signal 1 (marque Veo) et le Signal 4 (disponibilité API). Si Veo se retire comme marque grand public mais reste sur Vertex AI pour l'entreprise, votre intégration existante est sûre. Si Omni remplace entièrement Veo sur Vertex AI, vous avez une migration API devant vous. Dans les deux cas, construisez votre intégration à travers une couche d'agent ou d'orchestration pour que le changement de modèle soit un changement de configuration, pas de code.
Si vous opérez une stack d'agent multi-modèles
C'est la situation que nous défendons dans nos récents articles. (Voir les six bascules et les goulets d'étranglement du format long.) Un agent multi-modèles traite Omni comme un générateur supplémentaire à router — aux côtés de Veo, Seedance, HappyHorse, Kling, Luma et Runway. La couche agent est là où vit la question productive : quel plan dans cette vidéo de 60 secondes route vers quel modèle. L'annonce d'Omni ajoute une option à la table de routage ; elle ne change pas l'architecture que vous exécutez.
C'est exactement pourquoi nous avons gardé la stack de Genra agnostique au modèle : la couche modèle continue de bouger, la couche agent est ce qui s'accumule.
Conclusion, six jours avant I/O
Ce que l'on sait : il existe un vrai modèle nommé Omni dans l'onglet vidéo de Gemini, il produit une sortie visiblement meilleure que Veo 3.1 public sur la physique et le texte, et Google le cadre comme un produit de workflow basé sur le chat. Ce que l'on ne sait pas : s'il s'agit d'un rebranding, d'un nouveau modèle parallèle ou d'un système omni-modalité unifié.
La prédiction unique la plus utile est la troisième. Si la Théorie 3 est juste, l'écart architectural Occident/Chine se referme le 19 mai, et l'industrie revient à une course multipolaire où tous les grands laboratoires exécutent des architectures unifiées audio-vidéo. Si la Théorie 3 est fausse, Google reste en retard sur la frontière architecturale fixée par HappyHorse — et le tableau concurrentiel reste tel qu'après le lancement HappyHorse d'avril.
Dans les deux cas, la conclusion pratique est la même : la couche modèle continue de bouger, la couche agent est l'endroit où il faut construire. Omni ne change pas cela. Soit il le renforce (en ajoutant un autre modèle commodity à la table de routage), soit il ne bouge pas l'aiguille (si c'est un rebranding). Les équipes qui ont déjà déplacé leur différenciation vers l'infrastructure d'agent absorberont tout ce que Google annoncera le 19 comme une mise à jour de configuration. Les équipes qui parient encore sur un modèle héros unique passeront le reste du T2 à se réajuster.
Nous mettrons à jour cet article après le keynote avec ce qui sera réellement annoncé.
FAQ
Qu'est-ce que Gemini Omni ?
Gemini Omni est un modèle de génération vidéo IA non annoncé qui a fait surface via deux fuites dans l'interface Gemini de Google — une chaîne d'UI repérée le 2 mai 2026 et des clips vidéo générés fuités depuis un compte Gemini Pro le 11 mai. Google n'a pas confirmé officiellement Omni au 13 mai. La fenêtre d'annonce la plus probable est Google I/O 2026 les 19–20 mai.
Gemini Omni va-t-il remplacer Veo ?
Non confirmé. Trois théories sont en jeu : Omni est un rebranding grand public de Veo 3.1, Omni est un nouveau modèle séparé entraîné dans Gemini qui coexiste avec Veo, ou Omni est un modèle omni-modalité unifié remplaçant à la fois Veo et la stack de génération d'image. Les clips fuités suggèrent une capacité dépassant le Veo 3.1 public actuel, ce qui rend la théorie du pur rebranding la moins probable.
Que montraient les clips fuités ?
Deux clips ont retenu le plus d'attention : une scène de spaghettis dans un restaurant en bord de mer (remarquable pour gérer un mouvement alimentaire à forte composante physique) et un professeur réalisant des démonstrations trigonométriques au tableau (remarquable pour le rendu cohérent de notation mathématique d'un frame à l'autre). Les deux domaines de capacité sont des points faibles reconnus pour les modèles vidéo.
Quand saurons-nous ce qu'est vraiment Omni ?
Google I/O 2026 les 19–20 mai. Surveillez six signaux : si Veo est encore mentionné, si l'audio est généré dans le même appel que la vidéo, si la génération d'image est incluse, s'il y a une API dès le premier jour, quel est le tarif, et comment Project Astra s'insère.
Que dois-je faire en tant que créateur avant l'annonce ?
Ne changez rien pour l'instant. Si vous utilisez Gemini grand public, attendez le lancement. Si vous êtes sur Vertex AI, surveillez la voie de migration API. Si vous exploitez une stack d'agent multi-modèles, traitez Omni comme un autre générateur à router.
Comment Omni se compare-t-il à HappyHorse 1.0 ?
HappyHorse 1.0 a pris la #1 d'Artificial Analysis Video Arena en 48 heures lors de son lancement le 7 avril 2026, avec une architecture audio-vidéo unifiée de 15B paramètres. Si Omni est également un modèle omni unifié, il représente la première réponse de Google à cette direction architecturale.
À propos de l'auteur
Chris Sherman couvre la technologie vidéo IA et les workflows de production créative. Suivez @GenraAI pour une couverture en direct pendant le keynote Google I/O 2026 les 19–20 mai.