Google I/O 2026カウントダウン:Veo 4、Gemini 4、そしてAI動画の次なる革命
· Genra AIGoogle I/O 2026まであと3週間。Googleは2年連続でI/Oの場で新しいVeoモデルを発表してきた。パターンは明確で、リーク情報は積み上がり、競争環境はかつてないほど有利な状況にある。ここでは、期待される全てをまとめる。
カレンダーに印をつけよう。2026年5月19〜20日。Google I/Oが帰ってくる。そして、あらゆる兆候が今年最大のAI動画発表を示している。
Googleはこれまで2度、I/Oを主要なVeoローンチの舞台として活用してきた。Veo 1は2024年のI/Oでデビューし、Google DeepMindの動画生成能力を世界に初めて披露した。Veo 3は2025年のI/Oで発表され、ネイティブ音声生成と劇的に向上したリアリズムで業界全体を驚かせた。
そして今、OpenAIのSoraが事実上終了し、中国のモデル市場がHappyHorse、Seedance、Klingに分散し、Runwayが後れを取る中、GoogleはAI分野では珍しいポジションに立っている。明確なフロントランナーだ。欧米のAI動画市場は、Googleが失わない限りGoogleのものである。
この記事では、Veo 4、Gemini 4、そしてAI動画生成の今後1年を左右する可能性のある発表について、判明していること・予測されることの全てを解説する。
日時と場所:Google I/O 2026の概要
日程:2026年5月19〜20日
基調講演:米国東部時間午後1時/太平洋時間午前10時(日本時間5月20日午前2時)に5月19日開始。大きな発表はここで行われる。過去2年と同様、Sundar PichaiとDemis Hassabisがほぼ確実にAIセグメントを率いるだろう。
ライブ配信:io.googleで無料視聴可能。基調講演のストリーミングに登録は不要。5月19〜20日を通して、技術的な詳細セッションが開催される。
形式:ハイブリッドイベント。カリフォルニア州マウンテンビューのShoreline Amphitheatreでの対面参加に加え、全員がバーチャルでフルアクセス可能。基調講演後にデベロッパーセッション、コードラボ、ハンズオンデモが続く。
時間が1時間しかないなら、基調講演を見よう。Googleは一貫して最大の製品発表を冒頭90分に集中させており、Veoの発表は通常プレゼンテーション開始から30〜45分の時点で行われる。
Veo 4:期待されること
特許出願、リークされたベンチマークデータ、業界分析、そしてVeo 3および3.1が示した進化の軌跡に基づき、Veo 4が実現するであろう内容を以下にまとめる。
マルチシーンナラティブ生成
これが目玉機能だ。Veo 3.1ではチェーン生成が導入され、短いクリップをつなぎ合わせることで最大60秒のシーケンスを作成できるようになった。機能としては動作したが、つなぎ目は見えていた。シーン遷移が不自然になることがあり、セグメント間のビジュアル一貫性を保つには慎重なプロンプト設計が必要だった。
Veo 4では、20〜30秒のマルチシーンナラティブを単一パスで生成できるようになると予想されている。つまり、モデルがシーン遷移、カメラワーク、ナラティブの流れを内部で処理し、後処理やチェーンに頼る必要がなくなる。5枚の写真を別々に撮って編集するのと、連続した動画を1本撮影するのとの違いだと考えてほしい。コヒーレンスが根本的に異なるのだ。
クリエイターにとっては、短いストーリー(キャラクターが部屋に入り、座り、物を手に取り、リアクションする)を記述するだけで、各ビートを手動でオーケストレーションせずとも、まとまりのある結果が得られることを意味する。
真のネイティブ4K生成
Veo 3はネイティブで720pを生成し、4Kにアップスケールする。アップスケーリングの品質は高いが、熟練した目にはアーティファクトが見えてしまう。わずかにソフトなテクスチャ、細かいパターンでのハルシネーション、特定の照明条件下での微妙な「AI感」などだ。
Veo 4では、真のピクセルレベルの4K解像度でのネイティブ生成が実現すると期待されている。アップスケーリングパスなし。全てのピクセルがターゲット解像度で生成される。これはプロフェッショナルなユースケースにとって極めて重要だ。放送コンテンツ、デジタルサイネージ、大型ディスプレイ、劇場上映のいずれも、本物の高解像度ソース素材を必要とする。
ネイティブ4K生成のコンピュート負荷は相当なものであり、この機能の実現に時間がかかったのはそのためだろう。2025年を通じて大規模展開されたGoogleのTPU v6インフラが、ついに経済的に実用可能にするかもしれない。
ID埋め込みによるキャラクター一貫性
AI動画における最大の課題の一つがキャラクターの一貫性だ。公園を歩く人物の動画を生成し、次にカフェにいる同じキャラクターの動画を生成すると、全く別人のように見える2本の動画ができあがる。これではストーリーテリングが成り立たず、商用利用も限定されてしまう。
Veo 4では、3〜5枚の参照画像からキャラクターの外見を維持するID埋め込みシステムが導入されるとの噂がある。髪の色、顔の骨格、服装スタイル、体型のプロポーション、これら全てが固定され、生成クリップ間で一貫するのだ。
AI画像の分野では全く新しいものではない(IP-Adapterなどのアプローチが画像モデルには存在する)。しかし、時間的一貫性を維持しながら動画生成で堅牢に実装するのは、非常に難度の高いエンジニアリング課題だ。Googleがこれを実現すれば、あらゆる競合に対する真の差別化要因となる。
生成速度:40%高速化
Veo 3での生成時間は、720pの標準的な8秒クリップで2〜4分程度。実用的ではあるが、リアルタイムには程遠い。リークされたベンチマークデータによると、Veo 4では生成時間の40%短縮が目標とされており、標準クリップはおよそ70〜90秒にまで短縮される見込みだ。
この改善は、アーキテクチャの最適化(より効率的なアテンション機構、潜在空間の圧縮率向上)とハードウェアの進化(TPU v6のスループット向上)の組み合わせによるものと考えられる。高速な生成は単に時間を節約するだけでなく、より素早いイテレーションを可能にすることで、クリエイティブワークフローそのものを根本的に変える。
物理演算とモーション理解の向上
AI動画モデルには周知の弱点がある。物理演算だ。落ちるべき物体が落ちない。飛び散るべき液体が静止したまま。流れるべき布地が硬直して動かない。Veo 3はこの点で以前のモデルから大幅に改善したが、エッジケースは残っている。
Veo 4では、以下の処理を改善する専用の物理シミュレーションモジュールが組み込まれると予想されている:
- 流体力学:水、煙、炎、注ぎ液体のリアルな挙動
- 布シミュレーション:布地、髪、柔軟素材が動きや風に自然に反応
- 剛体インタラクション:物体の衝突、積み重ね、落下時の適切な重量感と運動量
- 光輸送:シーンの変化に正しく応答する反射、屈折、コースティクス
これらの改善は段階的なものであり、革命的というわけではない。しかし総合的に見れば、AI生成動画が大半の視聴環境で実写映像と見分けがつかなくなる閾値に、出力をさらに近づけることになる。
予測市場のオッズ
2026年4月下旬時点で、予測市場はVeo 4が2026年6月までにローンチする確率を約69%と見積もっている。残りの31%は、GoogleがQ3に延期するシナリオや、(一部市場で「Veo 2」のブランディングをスキップしたように)リリース名を変更するシナリオを織り込んでいる。コンセンサスとしては、I/OでのVeo 4発表が最も可能性の高いシナリオだが、確実ではない。
Gemini 4:Veo 4を支える基盤
Veoは単独で存在するものではない。Veoの各世代はGoogleのGemini基盤モデルの対応する世代の上に構築されており、Veo 4もほぼ確実にGemini 4上で動作する。
なぜこれが動画にとって重要なのか。基盤モデルがシステムの世界理解を決定するからだ。Veoにシーンを説明する際、ユーザーの意図を解釈するのはGeminiの言語理解であり、シーン構成に情報を与えるのはGeminiの視覚知識であり、複雑な多段階の指示を処理するのはGeminiの推論能力なのだ。
Gemini 4がもたらすもの
- 拡張されたコンテキストウィンドウ:Gemini 2は200万トークンまで拡張した。Gemini 4はさらに拡大し、より長く詳細なシーン記述、複数ページのストーリーボード、より豊富なリファレンス素材の入力を可能にするだろう。
- 強化されたマルチモーダル推論:空間関係、時間的シーケンス、因果関係のより良い理解。これは複雑なプロンプトからの、より一貫性のある動画生成に直結する。
- 指示追従の改善:Gemini 3(Veo 3を駆動)は、複合的な指示(「Xをして、次にYをして、ただしZは全体を通して維持」)に苦戦することがあった。Gemini 4ではこれらをより確実に処理できるはずだ。
- ネイティブツール使用:Gemini 4はエージェント機能の向上が見込まれており、Veo 4が生成中に外部ツールを呼び出せる可能性がある。カラーグレーディングの調整、スタイルリファレンスの適用、プロセス途中での実世界データの取り込みなどだ。
GeminiとVeoの関係は共生的だ。基盤モデルの改善は、その上に構築される全ての製品に波及する。より優れたGeminiは、自動的により優れたVeoを意味する。
Veoタイムライン:加速するリリースパターン
Veoの全タイムラインを見ると、Googleのリリースケイデンスと機能成長に明確な加速パターンが見て取れる。
| リリース | 日付 | 主な機能 |
|---|---|---|
| Veo 1 | 2024年5月(I/O) | Google DeepMind初の一般向け動画生成モデル。1080p出力。基本的なテキストから動画生成。ウェイトリスト経由の限定アクセス。 |
| Veo 2 | 2024年12月 | 品質の大幅な向上。モーションリアリズムの改善。VideoFXおよびVertex AI経由でのアクセス拡大。音声はまだ非対応。 |
| Veo 3 | 2025年5月(I/O) | ネイティブ音声生成。リアリズムの劇的な向上。動画と同時に生成されるダイアログと効果音。業界トップのベンチマーク。 |
| Veo 3.1 | 2026年1月 | 60秒シーケンスのチェーン生成。時間的一貫性の向上。カメラワークのより精細な制御。 |
| Veo 3.1 無料版 | 2026年4月 | Google AI Studio経由でVeo 3.1への無料アクセス。透かし入り出力。最先端の動画生成技術への民主的なアクセス。 |
| Veo 4 | 2026年5月予定(I/O) | ネイティブ4K。マルチシーンナラティブ。キャラクター一貫性。40%高速化。物理演算の改善。 |
パターンは明白だ。Googleはわずか2年で、研究プレビューから業界をリードする動画生成システムへと進化を遂げた。各リリースは前バージョンの最も重大な制約を解消してきた。Veo 2は品質を改善し、Veo 3は音声を追加し、Veo 3.1は尺を延ばし、Veo 4は一貫性と解像度の解決が期待されている。
メジャーリリース間の間隔も短縮している。Veo 1からVeo 2までは7ヶ月。Veo 2からVeo 3までは5ヶ月。Veo 4がI/O 2026で発表されれば、Veo 3から12ヶ月だが、その間に重要な中間アップデート(3.1)が挟まっている。Googleは実質的に5〜6ヶ月ごとにメジャーな改善を出荷していることになる。
Google I/O 2026がいつも以上に重要な理由
毎年、テック記者たちは次のカンファレンスが「過去最も重要」だと主張する。だが今年は、その主張に実質が伴っている。AI動画の競争環境は、I/O 2025以降、劇的に変化した。
Soraは終わった
OpenAIのSoraは2024年初頭に大きな話題とともにローンチされ、問題を抱えた限定リリースを経て、事実上放棄された。チームは再編され、製品ロードマップの優先度は引き下げられ、OpenAIは推論とエンタープライズ機能に注力するためクリエイティブツールからの戦略的撤退を示唆した。SoraのAPIは一般公開されることなく、1年以上にわたって有意義なアップデートは行われていない。
これにより空白が生まれた。2年間、AI動画の議論は「Google対OpenAI」だった。その構図は終わった。Googleは今、小規模プレイヤーと中国のラボという分散した競争相手と戦っている。
中国モデルの台頭
欧米のAI動画市場がGoogleに集約される一方で、中国のラボは積極的にリリースを重ねている:
- HappyHorse(美団):2026年初頭にトップクラスのモデルとして台頭。人体の動きや表情において特に高い性能を発揮。中国国外でのアクセスは限定的だが、技術力は本物だ。
- Seedance(ByteDance):TikTokの親会社が、ショート動画やSNS向けコンテンツに特化したモデルでAI動画生成分野に参入。TikTokのクリエイターツールとの緊密な統合が強み。
- Kling 2.0(快手):国際的に最もアクセスしやすい中国製モデル。Kling 2.0はリアリズムを大幅に改善し、競争力のある価格設定を提供。低コストで大量生産を必要とするクリエイターに人気。
これらのモデルは2026年初頭のコミュニティベンチマークで優勢を見せている。Googleは技術的リーダーシップを維持するだけでなく、再び主張するためにVeo 4を必要としている。
エンタープライズの賭け
ベンチマークや消費者の注目を超えて、本当の勝負はエンタープライズの採用だ。大手メディア企業、広告代理店、コンテンツプラットフォームが、AI動画インフラに対する長期的な投資判断を下している。これらの決定は今、2026年Q2にまさに行われており、通常2〜3年の契約サイクルでロックインされる傾向がある。
Veo 4がI/Oで説得力のある飛躍を見せれば、GoogleはVertex AI経由で競合が対抗する前にエンタープライズ顧客を囲い込める。発表が期待外れに終われば、それらの顧客はRunway、Kling、そして場合によっては中国ラボとの直接提携へと分散するだろう。
Google I/O 2026で注目すべきその他のトピック
Veo 4が見出しを独占するだろうが、I/O 2026には他にも注目すべき発表がいくつかある。
50グラム未満のAIメガネ
Googleは50グラム未満の次世代ARメガネを発表すると予想されている。これにより、市場最軽量のAI搭載メガネとなる。Gemini搭載のこのデバイスは、初めて真に終日装着可能なAIコンパニオンとなりうる。Googleのエコシステム(検索、マップ、翻訳、アシスタント)との統合により、MetaのRay-Banパートナーシップなどの競合に対して機能面の優位性を持つ。
AndroidへのGemini統合
Android 17ではOSレベルでのGemini深層統合が期待されている。通知シェードの中のチャットボットではなく、画面のコンテキストを理解し、アプリをまたいでアクションを実行し、複雑な多段階タスクを処理できるAIだ。2年間にわたり予告されてきた。I/O 2026がいよいよ実際に出荷される時かもしれない。
AIエージェント機能(Project Marinerとその先)
GoogleのAIエージェントへの取り組みは加速している。Project Mariner(ウェブブラウジングエージェント)、Jules(コーディングエージェント)、各種Workspaceエージェントの全てに重要なアップデートが予想される。トレンドラインは明確だ。Googleは、Geminiを「質問に答えるだけ」でなく「行動できる」存在にしたいと考えている。
デベロッパーツールとAPIアップデート
開発者にとっては、Vertex AI、Firebase AI統合、Gemini APIの料金変更、Google AI Studioでの新しいモデル機能のアップデートに注目したい。特にVeo APIは重要だ。アクセスの拡大、ドキュメントの充実、料金の引き下げがあれば、エコシステムの普及が加速する。
Veo 4がAI動画業界をどう変えるか
期待される機能の半分でも実現すれば、Veo 4がAI動画業界全体に与える波及効果は大きい。
Runwayへの影響
Runwayは2023年以降、クリエイティブプロフェッショナルにとってのデフォルトの選択肢だった。Gen-3 Alphaは依然として優れた製品だが、Runwayは1年以上にわたり世代的な飛躍を出荷していない。Veo 4がネイティブ4Kとキャラクター一貫性を提供する一方でRunwayがまだベース解像度720pのままであれば、品質差は無視できなくなる。Runwayの優位性は常に、生のモデル品質ではなくインターフェースとクリエイティブツールにあった。GoogleがUXを改善すれば、その優位性は狭まる。
Klingおよび中国モデルへの影響
Kling、Seedance、HappyHorseは技術ベンチマークで躍進してきたが、アジア圏外での流通に課題を抱えている。GoogleのスケールでのVeo 4(YouTube、Google Ads、Workspace、Androidに統合)は、欧米市場においてどの中国モデルにも匹敵できない流通上の優位性を持つ。ただし、コストを重視するクリエイターに対しては、中国モデルが価格性能比でリードし続けるだろう。
Pika、Luma、小規模プレイヤーへの影響
小規模なAI動画スタートアップは最も厳しい状況に直面している。Googleのコンピューティングリソースには太刀打ちできず、中国モデルの価格にも勝てず、Runwayの確立されたクリエイティブコミュニティにも及ばない。考えられる結果は、さらなる業界統合だ。買収、ニッチなユースケースへのピボット、または特定のバーティカル(不動産、EC、教育)への特化が、専門ツールにまだ価値がある領域となる。
エンタープライズのデフォルト
最も重大な結果は、Veo 4が真にベストインクラスであれば、GoogleがAI動画のエンタープライズにおけるデフォルト選択肢になるということだ。企業がGoogleを好きだからではなく、調達部門がGoogleのインフラ、セキュリティ、そして持続性を信頼するからだ。2026年にAI動画ツールを選定するFortune 500企業は、ほぼ確実にまずVertex AIを評価する。強力なVeo 4は、その評価を契約締結へと転換する。
Genraの視点
私たちはVeo 4の開発を注視している。マルチモデルオーケストレーションプラットフォームとして、Genraはその時点で最高のモデルを統合し、特定のタスクに最も適したモデルに生成リクエストをルーティングする。Veo 4がAPI経由で利用可能になれば、Genraは即座に統合し、ユーザーがワークフローを変更することなく最新の機能に自動的にアクセスできるようにする。
私たちのアプローチは常にモデルにとらわれない姿勢だ。今日はVeo 3.1、Kling、その他のリーディングモデル。明日はVeo 4が4Kナラティブシーケンスに、特定のスタイルやフォーマットには特化モデルが使われるかもしれない。ユーザーはどのモデルが動画を生成しているかを気にする必要はない。最高の結果を得られればいいのだ。
まとめ
- Google I/O 2026は5月19〜20日に開催。基調講演は米国東部時間午後1時/太平洋時間午前10時から。Veo 4が最も期待される発表であり、予測市場は6月前のローンチに69%の確率を付けている。
- Veo 4では、ネイティブ4K生成、単一パスでの20〜30秒マルチシーンナラティブ、ID埋め込みによるキャラクター一貫性、40%の高速化、物理シミュレーションの改善が見込まれている。
- Gemini 4がVeo 4の基盤モデルとして機能する可能性が高く、より強力なマルチモーダル推論、拡張されたコンテキストウィンドウ、改善された指示追従をもたらす。
- Veoのタイムラインは明確な加速パターンを示している。研究プレビュー(Veo 1)から業界リーダー(Veo 3)までわずか2年、メジャーアップデートは5〜6ヶ月ごとに出荷されている。
- 競争環境はかつてないほどGoogleに有利だ。Soraは終了し、OpenAIはクリエイティブツールから撤退、中国モデルは欧米市場で流通面の課題を抱えている。
- エンタープライズの採用が真の勝負だ。2026年Q2にAI動画インフラの意思決定を行う企業は、Googleが安全な長期的選択肢であることの確認をI/Oに求めるだろう。
- 仮にVeo 4が期待に届かなくとも、I/O 2026の広範な発表(AIメガネ、Android Gemini統合、エージェント機能)は今後1年のAI業界の方向性を形作る。
よくある質問
Google I/O 2026はいつですか?
Google I/O 2026は2026年5月19〜20日に開催予定です。基調講演は5月19日の米国東部時間午後1時/太平洋時間午前10時(日本時間5月20日午前2時)に始まり、io.googleで無料ライブ配信されます。デベロッパーセッションは両日にわたって行われます。
Veo 4はGoogle I/O 2026で発表されますか?
最も可能性の高いシナリオです。Googleは2024年のI/OでVeo 1を、2025年のI/OでVeo 3を発表しました。予測市場はVeo 4が2026年6月までにローンチする確率を約69%としており、I/Oが発表の場として最有力です。ただし、Googleがフルモデルチェンジではなく、Veo 3.5アップデートを選択する可能性もあります。
Veo 4の予想される機能は何ですか?
リーク情報と分析に基づくと、ネイティブ4K動画生成(アップスケールではない)、単一パスでの20〜30秒マルチシーンナラティブ生成、3〜5枚の参照画像を使用したID埋め込みシステムによるキャラクター一貫性、Veo 3比40%の高速化、流体・布・剛体の物理シミュレーション改善が挙げられます。
Veo 4はSoraより優れていますか?
Soraは事実上OpenAIに放棄されており、1年以上有意義なアップデートはなく、公開APIもありません。比較対象となる現行バージョンのSoraは存在しません。Veo 3.1はすでに、最後に公開されたSoraの出力品質をほとんどのベンチマークで上回っています。Veo 4が予想通りに実現すれば、直接的なOpenAI競合が不在の中で欧米市場の明確なリーダーとなるでしょう。
Veo 4はKlingやSeedanceなどの中国AI動画モデルとどう比較されますか?
HappyHorse、Seedance、Kling 2.0などの中国モデルは、2026年初頭のコミュニティベンチマークで特に人体の動きや表情の面で好成績を収めています。Veo 4はそれらの技術的品質に匹敵または上回りつつ、Googleの流通面での優位性(YouTube、Google Ads、Vertex AI、Androidとの統合)を提供すると見込まれています。ただし、中国モデルは価格面での優位性を維持するでしょう。
Veo 4は無料で使えますか?
Googleは2026年4月にVeo 3.1をGoogle AI Studio経由で無料提供しました(透かし付き)。Veo 4でも同様のパターンはありえますが、おそらく遅れるでしょう。まずVertex AI(有料、エンタープライズ向け)とGoogle AI Studio(限定的な無料枠)経由でアクセスが始まり、より広範な無料アクセスはローンチ数ヶ月後になると予想されます。
Gemini 4とは何ですか?Veo 4とどう関係していますか?
GeminiはVeoをはじめ多くのGoogle AI製品を駆動する基盤モデルです。Veoの各世代は対応するGeminiの世代上に構築されてきました。Gemini 4はより強力なマルチモーダル推論、より大きなコンテキストウィンドウ、改善された指示追従をもたらすと予想されており、これら全てがVeo 4の複雑な動画生成プロンプトの理解・実行能力を直接的に向上させます。
Google I/O 2026はどうすれば視聴できますか?
基調講演のライブ配信は、2026年5月19日の米国東部時間午後1時/太平洋時間午前10時(日本時間5月20日午前2時)からio.googleで無料視聴できます。ライブ配信に登録は不要です。デベロッパーセッションと技術詳細セッションは両日にわたって提供されます。Googleは通常、イベント終了後24時間以内に全セッションをYouTubeに公開します。
著者について
Genra AIチームは、AIを活用してプロフェッショナルな動画コンテンツを制作するクリエイターを支援するツールを開発しています。アップデート、チュートリアル、AI動画分野の率直な見解は@GenraAIをフォローしてください。