Gemini Omni 流出を読み解く:I/O 前夜の全手がかり

· Chris Sherman

5月2日、UI 文字列。5月11日、最初の生成クリップ。5月19〜20日、発表。Google 基調講演まで残り6日——Gemini Omni について分かっていること、そして分かっていないこと。

二幕仕立ての流出

まだ正式発表されていないモデルとしては、Gemini Omni の助走路は異例によく記録されてきた。手がかりは 2026年5月2日、X のユーザーが Gemini の動画生成タブの奥に「Start with an idea or try a template. Powered by Omni.」という UI 文字列を見つけたことから始まる。TestingCatalog がその日のうちに記事化した。この文字列は9日間放置され、その間にあらゆる憶測が飛び交った。

そして 2026年5月11日、二つめの靴が落ちた。明らかに公開版 Veo 3.1 とは別物が生成した動画クリップが、少なくとも一つの Gemini Pro アカウントから流出した。とくに注目を集めたのは2本:海辺のレストランで食べるスパゲッティ、黒板で三角関数の証明を進める教授。24時間以内に 9to5Google、Android Authority、Chrome Unboxed をはじめ十数のメディアが追随した。

次の大きなイベントは 2026年5月19〜20日の Google I/O 2026。この記事を読んでいる頃にはおそらく6日後。Google は Gemini と AI 関連アップデートがアジェンダに乗ることを認めている。Omni の名前は確認していない。

本記事は5月13日のスナップショット——ちょうど中間地点だ。何が事実で、何が憶測か、クリップが示唆するもの、基調講演で本当に注視すべきもの。I/O 後に更新する。

タイムライン一覧

日付出来事情報源の確度
2026-05-02Gemini 動画タブ内で「Powered by Omni」UI 文字列を発見高——UI スクリーンショット拡散
2026-05-02〜10憶測期間。具体的な出力はないが、複数メディアが文字列の存在を確認確認済み
2026-05-11Gemini Pro アカウントから生成クリップ流出——スパゲッティ海景・黒板教授高——複数メディアが独立に同じクリップを報道
2026-05-11〜12より完全な UI 文字列が浮上:「Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more」確認済み
2026-05-19〜20Google I/O 2026 基調講演——公式発表の最有力タイミング予定(未開催)

注目点は二つ。第一に、流出は製品内で起きた。マーケティングの口滑りではない——Google は正式発表前に Gemini Pro ユーザーの一部に Omni のロールアウトを始めたとみられ、それがスクリーンショットされる程度に可視化されていた。プレスへの事前リークよりはるかに信用できるシグナルだ。第二に、二つめの UI 文字列(「remix your videos, edit directly in chat, try templates」)から、Google がこれをワークフロー製品として位置づけていることがわかる——「edit directly in chat」や「remix」はコンシューマー製品の言葉づかいで、ベンチマークの言葉ではない。

2本のクリップが実際に見せたもの

流出した2本のクリップは現時点で最も具体的な情報だ。どちらも10秒未満の短いもので、ユーザーが Gemini Pro ウェブ画面と呼ぶ場所からテキストプロンプトで生成されたとされる。

クリップ1:海辺のスパゲッティ

海沿いのレストランでスパゲッティを食べる人物、夕焼け光、地中海の環境音。注目すべきは映像の精細さではない——その層は Veo 3.1 でも到達している。注目すべきはスパゲッティがスパゲッティとして振る舞っていること。フォークの周りで巻かれ、重みを持って落ち、フォークから口への動作が連続性を保つ。物理負荷の高い食事シーンは動画モデルの歴史的弱点だった——食器や食材が不自然に変形し、麺が切れ、途中で重力が機能停止する。流出クリップはこれを綺麗に処理している。基盤モデルが公開版 Veo 3.1 より明確に優れた物理事前知識を持つ証左だ。

クリップ2:黒板の教授

教授が黒板で三角関数の証明を進める。カメラは黒板に固定。ここで興味深いのは文字と数式のレンダリングだ。AI 動画モデルは整合性のある文字描写が悪名高く下手——文字がフレーム間で漂い、方程式が途中で意味不明になり、数学的に見えるものは概ね崩れる。流出した黒板クリップはフレーム間で認識可能な数式記号を一貫して描き、教授の手も筆順を正しく追っている。小さな改善ではなく、2年間壊れたままだったカテゴリの解決だ。

2本合わせて何を示唆するか

流出クリップが代表的であれば——この「あれば」は真面目に受け止める必要がある。Google は当然、最良の出力を見せるサンプルを撒くからだ——Omni が狙うのは AI 動画における2つの最難関の既知弱点:複雑物理と画面内テキスト描画だ。これは Sora 2 の撤退と HappyHorse 1.0 の発表が共に示した次なるフロンティアと同じ。(その正典的な解説は2026年中盤総括を参照。)

デモコンテンツの選択には意味がある。スパゲッティと数学講義は美学の披露ではなく能力の披露であり、競合が確実にはできない部分を正確に狙っている。Google が Omni をどこに対置しているかが分かる。

Omni の正体に関する3つの対立仮説

I/O 前の憶測の核心はここだ。Omni が何を意味するかには3つのもっともらしい解釈があり、市場の今後への含意は全く異なる。

仮説1:Veo 3.1 のコンシューマー向けリブランド

最も単純な解釈:Omni はコンシューマー版 Gemini アプリ内の既存 Veo パイプラインの新しい公開名にすぎない。基盤の生成スタックは変わらない。Google は「Veo」ブランドをコンシューマー面から下げ、Vertex AI エンタープライズ API では残し、Gemini チャット体験には統一されたプロダクト名を与える。

支持証拠:Google には改名の歴史がある。Bard → Gemini は最も目立った例。「Veo 3.1」というコンシューマーブランドは常にぎこちなかった——バージョン番号は非技術者には売れない。UI 文字列(「remix your videos, edit directly in chat」)はモデルの新規性ではなくワークフローを強調している。

反対証拠:流出クリップは公開版 Veo 3.1 を視覚的に上回る能力を示している。特に物理と文字描画。純粋なリブランドでは視覚的に異なる出力は出ない。Google が Omni ブランドの下で密かに Veo 3.2 を出していない限り、この仮説ではクリップを説明できない。

仮説2:独立した Gemini 訓練の動画モデル

中間解釈:Omni は Gemini ライン内で訓練された新しい動画モデルで、DeepMind の Veo パイプラインとは別個——Google のロードマップでは Veo を置き換えるのではなく並存する。コンシューマー Gemini は Omni を使い、Vertex AI のエンタープライズ顧客は Veo を引き続き使う。両者は並行進化する。

支持証拠:Google は歴史的に並列モデルラインを維持してきた(コンシューマー向け Gemini、エンタープライズ向け別研究ライン)。流出クリップの能力ジャンプは、Veo 3.1 とは異なるデータ混合とアーキテクチャで訓練されたモデルと整合する。

反対証拠:トップティアの動画モデルラインを2本走らせるのは高くつく。Sora 2 の撤退——事後検証で詳述した——は、OpenAI ですらコンシューマー動画モデル1本を規模化できなかったことを示した。Google が2本走らせるのは戦略として奇妙だ。

仮説3:統一オムニモデル(画像+動画+音声を単一フォワードパス)

最も野心的な解釈:Omni は Gemini で訓練された新モデルファミリーの第一弾で、画像生成・動画生成・同期音声を単一の順伝播で扱う。これは HappyHorse 1.0 が4月に Arena #1 を取った際の 15B パラメータ統一音声動画モデルが開拓したアーキテクチャだ。この仮説では、Omni は現行 Veo パイプライン(動画)と Nano Banana Pro スタック(画像)の両方を、単一マルチモーダル生成器で置き換える。

支持証拠:製品名「Omni」自体がマルチモーダルな範囲を強く示唆する。UI のフレーミング(「our new video model, remix your videos, edit directly in chat」)は単一プロダクト面が複数モダリティを覆うことを示唆。HappyHorse からの統一アーキテクチャ実装プレッシャーは切迫——Google は4月以降 Arena 首位を失い続けている。(アーキテクチャ詳細は HappyHorse 1.0 レビューを参照。)

反対証拠:統一オムニモデルは技術的に難しく、Google はバイトダンスやアリババほどコンシューマーへ新規アーキテクチャを出すことに積極的ではなかった。公開基調講演で2本の生産パイプラインを同時に置き換えるのはハイリスクだ。

賭けはどこに

業界観察者は3仮説に大まかに 30/30/40 で分かれる。UI フレーミングと能力ジャンプから最もありそうな読みは仮説2と3のハイブリッド:少なくとも動画と音声を統一処理する新 Gemini 自前モデルで、安定性を必要とするエンタープライズ向けには Veo が Vertex AI 上に残る。6日後には答えが分かる。

なぜ Google を超えて重要なのか

Omni が興味深いのは、Google が新しい動画モデルを出すからではない。新しい動画モデルは今や毎月出ている。Omni が興味深いのは、仮説3が正しい場合に何を意味するかだ。

AI 動画業界は2026年最初の4ヶ月、統一オムニモデル論が現実化するのを見てきた。Sora 2 は分離パイプライン構成で84日で崩壊。HappyHorse 1.0 は 15B 統一構成で48時間で Arena #1。Seedance 2.0 は二重分岐 Transformer で音声と動画を同時出力。技術の重心は丸ごと一四半期かけて統一モデルへ傾いてきた。応答していなかった西側主要研究所は Google だけだった。

Omni が本物の統一モデル——仮説3——であれば、Google は中国のリーダーが確立したアーキテクチャ方向に追いついたことになる。下流に3つの効果がある:

  1. Veo ブランドの統合または退役。分離パイプラインの Veo を統一構成 Omni と並走させて12ヶ月以上維持する意味はない。Vertex AI のエンタープライズ顧客は移行経路を期待するだろう。
  2. 西側/中国のアーキテクチャ格差が縮まる。「中国モデルは統一アーキテクチャを先行したため構造的に先んじている」という枠組みは Google が自前を出した時点で弱まる。
  3. モデル層の差別化はさらに圧縮される。トップ6モデルのうち4つが統一音声動画アーキテクチャを使うなら、モデル層はますますコモディティ化し、agent 層が唯一意味のある差別化点となる。これは2026年中盤総括の中心命題であり、Omni はそれを延長する。

Omni がただのリブランド(仮説1)なら以上の多くは適用されない。だが流出クリップは仮説1を3つの中で最も可能性の低いものにしている。

I/O で注視すべき6項目チェックリスト

5月19日に基調講演が始まれば、以下のシグナルがどの仮説が正しかったかを語る。単独で決定的なものはないが、組み合わせれば明確な像になる。

シグナル1:Google は基調講演の壇上でまだ「Veo」と言うか?

コンシューマー向け Gemini セグメントから Veo が目立って欠落するなら、Veo がコンシューマーブランドとして退役する証拠だ。Veo が Omni と並んで言及されれば両者は並存(仮説2)。両方言及されつつ Veo がエンタープライズ専用に位置づけられれば、移行が始まっている。

シグナル2:Omni は動画と同じ呼び出しで音声を生成するか?

同期した動画+音声を返す単一 API 呼び出しは統一オムニモデル(仮説3)の技術的署名だ。動画と音声合成を別の2呼び出しに分けるのは旧来のアーキテクチャ。基調講演のデモではっきり示されるはずだ。

シグナル3:Omni は画像生成も扱うか?

Omni が新しい動画モデルとしてのみ位置づけられれば範囲は狭い。画像生成も吸収——Gemini チャット面内の Nano Banana Pro を置き換える——なら、より広い統一モダリティ論の証拠だ。基調講演で画像生成デモが「Omni」名義になるか、Nano Banana / Imagen のままかを注視せよ。

シグナル4:初日に API は来るか?

Veo 3.1 は基調講演当日に Vertex AI で公開された。Omni が5月19〜20日に公開 API と価格付きで出れば、即時の本番運用向けに位置づけられている。コンシューマーのみで API は「今年中の予定」なら、Google は Sora 2 の小売先行ルートを取る——これは規模では経済的に成立しないと既に見てきた。

シグナル5:価格構造はどうか?

現行公開トップティア API 価格のベンチマークはおよそ $0.05/秒(HappyHorse 1.0)から $0.50/秒(Veo 3.1)。Omni の API 価格が HappyHorse に寄れば Google はコスト勝負、Veo 3.1 に寄れば品質勝負。選択は Google がどの市場を優先するかを語る。

シグナル6:Project Astra はどう絡むか?

Google は2024年以降毎回の I/O で Project Astra——リアルタイムマルチモーダルアシスタント——をデモしてきた。5月19〜20日に Astra が突然プロダクトになり Omni を裏で使うなら、より広い「omni」論:単なる動画モデルではなく Gemini 体験全体にまたがるリアルタイムマルチモーダル AI 面だ。

これがワークフローに何を意味するか

基調講演を待つ間に詰めておける実務点が3つ。

Gemini を直接使ってクリエイションする場合

今は何も変える必要はない。コンシューマー Gemini アプリの Omni が来週出るなら、既存の動画生成体験を単に置き換えるか強化するだけだ。「remix your videos, edit directly in chat」の表現は既に慣れた chat 駆動ワークフローを示唆する。背後に賢いモデルが入るだけ。発表を待ち、新しい能力を試し、実際の変化に合わせてプロンプトを調整せよ。

Vertex AI 上で開発している場合

シグナル1(Veo ブランド)とシグナル4(API 可用性)を注視せよ。Veo がコンシューマーブランドとして退役しつつエンタープライズ用に Vertex AI に残るなら、既存統合は安全。Omni が Vertex AI で完全に Veo を置き換えるなら、API 移行が待ち受ける。いずれにせよ、統合を agent またはオーケストレーション層越しに作っておけば、モデル切替はコード変更ではなく設定変更で済む。

マルチモデル agent スタックを運用している場合

これこそ最近の記事で主張してきた状況だ。(6つの転換長尺ボトルネックを参照。)マルチモデル agent は Omni をルーティング表のもう一つの生成器として扱う——Veo、Seedance、HappyHorse、Kling、Luma、Runway と並列で。Agent 層こそ生産的な問いの居場所だ:この60秒動画のどのカットをどのモデルにルーティングするか。Omni の発表はルーティング表に選択肢を一つ追加するだけで、運用するアーキテクチャは変えない。

これこそ Genra のスタックをモデル非依存に保ってきた理由だ:モデル層は動き続け、agent 層こそ複利で積み上がる。

I/O 6日前の結論

分かっていること:Gemini の動画タブ内に Omni と呼ばれる本物のモデルが存在し、出力は物理と文字描画で公開版 Veo 3.1 を視覚的に上回り、Google はそれを chat ベースのワークフロー製品として枠組み付けている。分かっていないこと:それがリブランドか、並列の新モデルか、統一オムニモダリティシステムか。

最も有用な単一予測は3つめだ。仮説3が正しければ、5月19日に西側と中国のアーキテクチャ格差は閉じ、業界は全主要研究所が統一音声動画アーキテクチャを走らせる多極競争に戻る。仮説3が外れれば、Google は依然 HappyHorse が設定したアーキテクチャの最前線から後ろにいる——4月の HappyHorse 発表後の競争風景のままだ。

どちらでも実務上の結論は同じ:モデル層は動き続け、agent 層こそ作るべき場所だ。Omni はそれを変えない。強化するか(ルーティング表にもう一つコモディティモデルを足す)、針を動かさない(リブランドなら)のいずれかだ。差別化を既に agent インフラに移したチームは、19日に Google が何を発表しても設定アップデートとして吸収する。単一ヒーローモデルに賭け続けるチームは Q2 残りを後付けに費やす。

基調講演後にこの記事を実際の発表内容で更新する。

FAQ

Gemini Omni とは?

Gemini Omni は未発表の AI 動画生成モデルで、Google の Gemini インターフェース内の2度の流出を通じて浮上した——2026年5月2日の UI 文字列、5月11日に Gemini Pro アカウントから流出した生成動画クリップ。5月13日時点で Google は Omni を公式に認めていない。最も可能性の高い発表窓口は2026年5月19〜20日の Google I/O 2026。

Gemini Omni は Veo を置き換えるのか?

未確認。3つの仮説:Omni は Veo 3.1 のコンシューマー向けリブランド、Omni は Veo と共存する独立した Gemini 自前新モデル、Omni は Veo と画像スタックを同時に置き換える統一オムニモダリティモデル。流出クリップは現行公開 Veo 3.1 を超える能力を示唆し、純粋なリブランド仮説を最も低い可能性にしている。

流出クリップは何を示したか?

注目を集めた2本:海辺レストランのスパゲッティ(物理負荷の高い食事動作の処理が見どころ)と黒板で三角関数の証明を行う教授(フレーム間で一貫した数式記号描画が見どころ)。どちらも動画モデルの業界共通の弱点領域。

Omni が本当に何かはいつ分かる?

Google I/O 2026、5月19〜20日。6つの具体的シグナルを注視:Veo はまだ言及されるか、音声は動画と同じ呼び出しで生成されるか、画像生成は含まれるか、初日に API が出るか、価格はどうか、Project Astra はどう絡むか。

発表前にクリエイターとして何をすべき?

今は何も変えるな。コンシューマー Gemini を使うならローンチを待って新しい能力を試す。Vertex AI なら API 移行経路に注目。マルチモデル agent スタックを運用するなら Omni をルーティング表のもう一つの生成器として扱う——運用アーキテクチャは変わらない。

Omni は HappyHorse 1.0 と比較してどうか?

HappyHorse 1.0 は2026年4月7日の発表後48時間で Artificial Analysis Video Arena #1 を取得、15B パラメータの統一音声動画アーキテクチャを採用。Omni も統一オムニモデルであれば、Google のそのアーキテクチャ方向への初の応答となる。


著者について
Chris Sherman は AI 動画技術とクリエイティブ制作ワークフローを取材している。Google I/O 2026 基調講演(5月19〜20日)期間中のライブカバレッジは @GenraAI で。