Google I/O 2026 総括:Veo 4 は出なかった — だが Gemini Omni と Spark がエージェント層を正式に持ち込んだ
· Chris Shermanこの 2 か月、AI 動画業界は丸ごと Veo 4 の話をしていた。出なかった。Google が I/O 2026 で発表したのはもっと大きく、もっと奇妙なものだった:テキスト/画像/音声/映像生成を統一したマルチモーダルモデル Gemini Omni、24/7 クラウド常駐エージェント Spark、消費者向け AI の価格下限を 100 ドルに引き直す AI Ultra 新プラン、そして Google が今やエージェント層を次のプラットフォーム戦場と見なしているという明確なシグナル。完全な読み解きをここに置く。
昨日、Sundar Pichai は Shoreline Amphitheatre の壇上に立ち、AI 動画業界に誰も予期しないものを渡した。Veo 4 はなかった。「Veo」ブランドの見出しは一切なかった。代わりにあったのは、戦略的により興味深いもの:Gemini Omni — 単一のシステム内でテキスト、画像、音声、映像の生成をネイティブに扱うマルチモーダルモデル;Gemini Spark — クラウド VM 上に住み、24 時間あなたの代わりに動作するパーソナル AI エージェント;そして Google の消費者向け AI 戦略の中心に 100 ドルの AI Ultra プランを据える価格の再構築。
この基調講演は、今後 12 か月の AI 動画の脚本を書き換えた。以下に、Google が発表した全内容、それが実際に何を意味するのか、そして発表翌日の朝に AI 動画業界がどこに立っているのかを示す。
Gemini Omni:誰も予測しなかった見出し
最も影響の大きい発表は Gemini Omni だった — Google が同社初の真に統一されたマルチモーダル生成システムと表現する新しいモデルシリーズ。Google のこれまでのラインナップは Veo(映像)、Imagen(画像)、その他連結されたシステムに能力を分散していたが、Omni はテキスト、画像、音声、映像生成を 1 つのモデルでネイティブに扱う。
Omni フレームワーク下で初の公開モデルは Omni Flash。テキスト、画像、音声を組み合わせた入力を受け取り、同期音声付きの短いシネマチックな映像を出力する。Google は、ユーザーが静止画をアップロードし、声で指示を出し、その音声指示に応じたネイティブ音声付きのアニメーションシーンを返してもらうデモを披露した。編集は対話的 — 新しいプロンプトを書いてゼロから再生成するのではなく、変えたい箇所を口頭で言ってクリップを微調整する。
Omni が Veo 系統と戦略的に異なる 3 点:
- 1 つのモデルであり、スタックではない。Veo 3 にはすでにネイティブ音声があったが、より広い Google のクリエイティブスタックは依然として画像生成、音声制作、編集の別個のモデルを連結することに頼っていた。Omni はそのチェーンを折り畳む。戦略的含意は、Google は次の品質飛躍はモダリティ横断の共同学習から来ると考えており、映像専用モデルをさらにスケールさせることからではないということ。
- 世界を基盤とした生成。Demis Hassabis は Omni を Google DeepMind の世界モデル研究の上に構築されるものと位置づけた。売り文句は、基盤モデルがより豊かな内部世界表現を持つため、Omni は空間的・時間的・物理的整合性のより強い映像を生成するということ。出力が実際にそれを証明するかは、来四半期にベンチマークしていく問いだ。
- 編集を一級の能力として。Omni はジェネレータとしてだけでなくエディタとしても位置づけられている。対話による微調整、シーン入れ替え、リミックス的な操作は外部レイヤーではなく製品表面の一部だ。これは製品哲学における意味のある転換であり、競合は対応せざるを得ない。
Omni が現時点でやらないこと:ロングフォーム。Omni Flash はショートフォームで、Google はより長く高度な生産ワークフローは計画中だがまだ出荷していないと明言した。ワンショットで 60 秒の物語生成を期待していた人は、まだ待たされる。
Gemini Spark:クラウドの 24/7 パーソナルエージェント
Omni がほとんどの評論家が読み違えた見出しだったとすれば、Spark は最も過小評価された発表だった。
Gemini Spark は、Google Cloud 専用 VM 上に住み、継続的に稼働し、Google 製品と Model Context Protocol(MCP)を通じて接続される拡大する第三者サービス群を通してあなたの代わりに行動するパーソナル AI エージェントだ。Google 自身の言葉での製品説明:「あなたが寝ている間にレストランを予約し、Instacart で注文を入れ、受信箱の返信を下書きする」エージェント。
戦略的意味を過小評価するのは難しい。この 2 年間、Google の消費者向け AI のストーリーはチャットボットとしての Gemini だった。Spark は Google が、チャットボットは間違ったフレームだった、正しいフレームはアプリケーションと時間を跨いで動作する自律エージェントだ、と明言する場だ。エージェントは受信箱を読み、ツール内で行動を取り、サービスを跨いで計画し、報告する。ユーザーは結果を記述し、Spark が実行を担う。
これは AI 動画業界がこの 1 年議論してきた同じテーゼを、一般生産性に適用したものだ。エージェント層はもはやスタートアップのポジショニング賭けではない。今や Google のポジショニング賭けだ。
価格はここで重要だ。Spark は新しい月額 100 ドルの AI Ultra プランの背後にゲートされ、来週から米国のサブスクライバー向けにベータ展開される。価格だけでも、11 ドルの Gemini Pro プランの 9 倍を払って本当に物事を成すエージェントを手に入れたいユーザーが相当数いると Google が信じているシグナルだ。
Gemini 3.5:基盤モデルアップデート
Omni と Spark の発表の下には基盤モデルの刷新がある。Gemini 3.5 Flash は昨日、Gemini アプリ、Search、Antigravity、Gemini API 全体で立ち上がった。Google の主張:コーディング、エージェンティック、マルチモーダルベンチマークで Gemini 3.1 Pro を上回り、同等のフロンティアモデルの出力トークン速度の約 4 倍で動作する。
Gemini 3.5 Pro は発表されたがまだ一般提供されていない。テスト中で、来月出荷される。
Flash、Pro、Omni、Spark を通じたパターンは一貫している:Google が I/O で発表したすべての製品はエージェンティック能力の路線の上に構築されている。指示追従の高速化、効果的なコンテキストの長期化、ツール使用の改善、信頼性の高い多段実行。モデル層はその上のエージェント層に奉仕するよう形作られている。
Antigravity 2.0:開発者向けストーリー
Antigravity は Google のエージェント開発プラットフォームだ。昨日、オーケストレーションに焦点を当てた 2.0 アップグレードを受けた — 開発者が互いに、また外部ツールとやり取りする複数のエージェントを構成・スケジュール・監督できるようにする。
AI 動画への関連は間接的だが実在する。より多くの AI 動画ツールが単一モデルのラッパーから実際にオーケストレーションされたパイプラインへ移行するにつれ、それらのオーケストレーションを実行・監視・デバッグする基盤インフラが基礎的な依存先となる。Antigravity 2.0 は、Google がその下のモデル層を所有するのと同じやり方で、そのインフラ層を所有しようとする試みだ。
独立系エージェントビルダーが Google のインフラに頼るか、自前で構築するかは、この基調講演から浮上した最も興味深い未解決の問いの 1 つだ。答えは、Google がエージェント経済のどれだけを取り込み、どれだけが真にオープンに残るかを決定する。
100 ドルの AI Ultra プラン:価格下限のリセット
Google AI Ultra は今や月額 100 ドルから始まり、上位プランは 200 ドル。以前の Ultra プランは 250 ドルだった。新しいエントリープランには Gemini Spark ベータアクセス、20 ドルの Pro プランの 5 倍の Gemini アプリ利用上限、20TB のクラウドストレージ、YouTube Premium が含まれる。
戦略的読み筋は単純:Google はプレミアム消費者向け AI を積極的に値付けし、エージェント製品とはどう感じるものかを定義するアーリーアダプターを取りに行っている。月額 100 ドルで、Spark は今や ChatGPT Pro や Claude の消費者向け上位プランと直接競合する。エージェント機能が差別化要因 — そして、競合は今後 12 か月以内に何らかのバージョンを出荷するか、生産性エージェントカテゴリを譲り渡すか、いずれかになる。
クリエイターやオペレーターにとっての関連する問いは、月額 100 ドルのパーソナルエージェントが本当に作業を有意に加速するかどうかだ。正直な早期の答え:Spark のベータがデモに見合うかどうかに完全に依存する。デモはデモだ。90 日後にわかる。
Android XR と Project Aura:ハードウェア表面
Google は、Xreal と協力して開発した XR クラスのスマートグラス Project Aura を含む新しい「インテリジェント・アイウェア」デバイスも発表した。少なくとも 3 つのスマートグラスパートナーシップが今年立ち上がり、Meta の音声優先 Ray-Ban と完全な XR ヘッドセットの間に Google を位置づける。
AI 視点:これらは Gemini 駆動だ。ライブのビジュアルコンテキスト、音声インタラクション、エージェンティックアクション — すべてウェアラブル。AI 動画にとって含意は下流だが実在する。Gemini コンテキスト付きのウェアラブルカメラは、リファレンスキャプチャと移動中のライブ編集の両方で、映像制作の恒久的な入力デバイスになる。これが本番ワークフローで重要になるまで 18 か月。消費者向けデモで重要になるまでゼロか月だ。
Android 17:インテリジェンス層としての OS
Sameer Samat の Android アップデートは、OS 自体を「オペレーティングシステムからインテリジェンスシステムへ」と変容させるものと位置づけた。フレーミング — Gemini がアプリ横断でコンテキストを理解し、ニーズを予測し、ユーザーの代わりに行動する — はモバイルプラットフォームに適用された同じエージェント層テーゼだ。
具体的な機能はフレーミングほど重要ではない。Google は、OS 層とエージェント層が 1 つのスタックに収束し、すべてが Gemini 基盤モデルの上で動作する未来にコミットしている。開発者にとっては、エージェントを意識したアプリ設計はもはや任意のパターンではなく、Google がプラットフォームを構築する際の基本前提だということを意味する。
出荷されなかったもの:Veo 4 の不在
起こらなかった、最も注目された予想発表:Veo 4。Veo 4 のお披露目もなく、Veo 4 のロードマップもなく、Veo が Omni ラインに代わって廃止されているという明示的な確認もなかった。
最も可能性の高い読み筋:Google は並行する Veo 開発を続けるのではなく、生成映像の取り組みを Omni のもとに統合している。Omni Flash は新しい出発点として位置づけられている。Veo 3.1 は Omni Flash がまだカバーしていないユースケース — 特により長い単一ショット生成、4K 出力、ID 埋め込みによるキャラクターの一貫性、いずれも Omni Flash は現時点でサポートしていない — のための本番グレードの選択肢として残る。
より広い AI 動画業界にとってこれは意味のあるピボットだ。18 か月にわたる「Veo は次に何をするか」という会話は「Omni とは何か」に置き換えられた。Veo 固有の自動化を持つオペレーターは、Omni がロングフォームで成熟するのを待つか、当面の生産を Veo 3.1 に置き続けるかを評価する必要がある。おそらくは両方、並行して、異なるコンテンツタイプで。
これが AI 動画オペレーターにとって何を意味するか
個別の発表から一歩引いて見ると、昨日 3 つのことが変わり、それが今後 1 年の AI 動画を形作るだろう。
第一に、モデル戦略が有用な形で混雑した。Omni は統一マルチモーダルの賭けだが、Omni Flash はショートフォームのみだ。Veo 3.1 は依然としてより長いクリップと高解像度のための重い仕事をする。本物の本番パイプラインは両方を使い、両者の間でルーティングし、Omni が成熟するにつれ動的に切り替えるだろう。そのルーティングロジックが住むのがエージェント層だ。
第二に、エージェント層思考は今やコンセンサスだ。Spark は、チャットボットフレームは過渡的なステップであり、目的地は自律エージェントだ、と Google が声に出して言うことだ。「アシスタント」を作るか「エージェント」を作るかで議論していた消費者向け・企業向け AI 製品チームは皆、決着した答えを受け取った。エージェント層が競争が移動する先だ。
第三に、対話型編集はクリエイターのワークフローを変える。Omni のチャット内編集への重点 — 変えたい箇所を述べてクリップを微調整する — は、かつての「生成してから編集」の 2 段階を折り畳む。AI 動画クリエイターにとってこれは意味のある UX 簡素化であり、競合が応えることが期待される。Genra のパイプラインはすでに対話型反復をサポートしている;真剣な AI 動画プラットフォームはどれも 6 か月以内にそのバージョンを出荷すると期待してよい。
Genra が次にやること
Genra がここからどこへ向かうか、いくつか正直な注記。
Omni Flash は Gemini API 経由で利用可能になり次第統合する。Genra が構築してきたエージェント層はモデル非依存に設計されたのは、まさに Omni のような追加がワークフローの変更ではなくバックエンドの変更になるようにするためだ。ユーザーは、ルーティングロジックが最も得意なショットに Omni Flash を選び始めると、より良いショートフォーム出力を目にすることになる。ロングフォーム、4K、高一貫性のユースケースは引き続き Veo と Seedance で稼働する。
Spark を 24/7 クラウド常駐エージェントとして位置づけたことは、エージェント層テーゼに対して期待しうる最も近い検証だ。Genra は動画制作のためのドメイン特化エージェント。Spark は個人生産性のための汎用エージェント。両者は心地よく共存する — CRM エージェントとコーディングエージェントが汎用生産性アシスタントと共存するのと同じように。
より大きな競争のフレーム:Google がプラットフォーム層でエージェント層にコミットした今、AI 動画スタートアップ各社にとっての問いはもはや「エージェントは未来か」ではない — それは決着済みだ。問いは、どのドメイン特化エージェントがそのカテゴリで信頼される選択肢になるかだ。AI 動画については、それが Genra が答えるために構築されている問いだ。
主な要点
- Google I/O 2026 は Veo 4 を出荷しなかった。映像分野の見出しは Gemini Omni — 単一システム内でテキスト・画像・音声・映像生成を扱う統一マルチモーダルモデルであり、Omni Flash が初の公開モデル。
- Google 製品と MCP 接続のサードパーティサービスを跨いで行動する、24/7 クラウド常駐パーソナルエージェント Gemini Spark が戦略的に最も意義深い発表。Google を次のプラットフォーム戦場としてのエージェント層にコミットさせる。
- Gemini 3.5 Flash は昨日ローンチ;Gemini 3.5 Pro は来月用にテスト中。すべての基盤アップデートは単なる知能ではなくエージェンティック能力を軸にフレーミングされた。
- AI Ultra は月額 100 ドルのエントリー(最上位 200 ドル)に再価格化、以前の 250 ドル Ultra から引き下げ。Spark ベータアクセスは来週から米国サブスクライバーの 100 ドルプランに限定される。
- Antigravity 2.0 は Google のエージェント開発プラットフォームをオーケストレーションツールで拡張 — エージェントビルダー向けのインフラ手筋。
- Android XR と Project Aura スマートグラス、加えて Android 17 の「インテリジェンスシステム」フレーミングが、エージェントテーゼをハードウェアと OS 層に拡張する。
- Omni Flash はショートフォーム専用。Veo 3.1 はより長く、より高解像度、ID 一貫性のある映像のための本番ツールとして残る。本物のパイプラインは両者の間でルーティングする。
- Omni における一級能力としての対話型編集は、競合が 6 か月以内に応える必要のあるワークフロー転換。
- Genra は API アクセス利用可能になり次第 Omni Flash を統合し、ユーザーはルーティングされたショートフォームショットで品質向上を静かに目にする。ロングフォーム、4K、一貫性が重要な作業は引き続き Veo と Seedance で稼働する。
よくある質問
Google は I/O 2026 で Veo 4 を発表しましたか?
いいえ。Veo 4 の発表はありませんでした。Google は代わりに Gemini Omni モデルシリーズを導入し、Omni Flash が初の公開利用可能モデルです。最も可能性の高い解釈は、Google が並行する Veo 世代を続けるのではなく、Omni フレームワークの下に生成映像の作業を統合しているということです。
Gemini Omni とは何ですか?
Gemini Omni は Google の新しい統一マルチモーダルモデルシリーズで、組み合わせ入力からテキスト、画像、音声、映像をネイティブに生成できます。Omni Flash は初の公開モデルで、同期ネイティブ音声と対話型編集を備えたショートフォーム映像に焦点を当てています。
Gemini Spark とは何ですか?
Gemini Spark は専用 Google VM 上で稼働する 24/7 クラウド常駐パーソナル AI エージェントで、MCP 経由で Google 製品と 30 以上のサードパーティサービスと統合し、ユーザーに代わって行動します — 予約、注文、下書き、タスク管理。来週、米国の AI Ultra サブスクライバー向けにベータ展開されます。
2026 年の Google AI Ultra の料金はいくらですか?
新しい AI Ultra エントリープランは月額 100 ドルで、以前の 250 ドルから下がりました。上位プランは 200 ドルです。100 ドルプランには Gemini Spark ベータアクセス、Pro プランの 5 倍の Gemini アプリ利用上限、20TB のクラウドストレージ、YouTube Premium が含まれます。
Gemini 3.5 Flash とは何ですか?
Gemini 3.5 Flash は Google の最新の高速ティア基盤モデルで、2026 年 5 月 19 日にローンチされました。Google はコーディング、エージェンティック、マルチモーダルベンチマークで Gemini 3.1 Pro を上回り、同等のフロンティアモデルの出力速度の約 4 倍で動作すると主張しています。Gemini アプリ、Search、Antigravity、Gemini API で利用可能です。
Antigravity 2.0 とは何ですか?
Antigravity は Google のエージェント開発プラットフォームです。2.0 リリースは、開発者が相互作用する複数のエージェントを構成・スケジュール・監督できるオーケストレーションツールを追加します。エージェント製品の下のインフラ層を狙っています。
Google は I/O 2026 でスマートグラスについて何を発表しましたか?
Google は Xreal と開発した Project Aura を含む新しい Android XR クラスの「インテリジェント・アイウェア」デバイスを発表しました。少なくとも 3 つのスマートグラスパートナーシップが 2026 年秋に立ち上がり、Google を音声優先のグラスと完全な XR ヘッドセットの間に位置づけます。すべて Gemini 駆動です。
Genra は Gemini Omni を統合しますか?
はい。Genra は、新しいモデルの統合がワークフローの変更ではなくバックエンドの変更となるよう構築されています。Omni Flash は Gemini API 経由で利用可能になり次第、エージェントのルーティングロジックに追加されます。ユーザーは作業の仕方を変えることなく、ショートフォーム出力の品質向上を目にします。
I/O 2026 後も Veo 3.1 は利用可能ですか?
はい。Veo 3.1 は引き続き Google AI Studio と Vertex AI 経由で利用可能です。より長いクリップ、4K 出力、ID 埋め込みによるキャラクター一貫性が必要なユースケース — Omni Flash がまだサポートしていない能力 — のための本番グレードの選択肢として残ります。
I/O 2026 は AI 動画クリエイターにとって何を意味しますか?
3 つの転換。第一に、モデル戦略はショートフォームの統一マルチモーダル向け Omni と、ロングフォーム・高解像度向け Veo 3.1 に跨る — 本物のパイプラインは両者の間でルーティングします。第二に、エージェント層思考はプラットフォーム層でコンセンサスとなり、もはやスタートアップのポジショニング賭けではありません。第三に、対話型編集はすべての AI 動画ツールが応える必要のあるベースライン能力になりつつあります。
著者について
Chris Sherman は AI 動画技術、エージェントアーキテクチャ、クリエイティブ制作のビジネスをカバーしています。I/O 後の AI 動画ランドスケープと MiniMax 公聴会(5 月 29 日)の継続的なカバレッジは @GenraAI をフォローしてください。