Google I/O 2026 专题复盘：没发 Veo 4，但 Gemini Omni 和 Spark 让 Agent 层正式上桌

过去两个月，整个 AI 视频行业都在聊 Veo 4。它没来。Google 在 I/O 2026 上发的是更大、也更奇怪的东西：统一文/图/音/视频生成的多模态模型 Gemini Omni、24/7 云端 agent Gemini Spark、把消费 AI 价格底线重置到 100 美元的 AI Ultra 新档，以及一个明确信号——Google 现在把 agent 层视为下一个平台战场。这里是完整解读。

昨天 Sundar Pichai 在 Shoreline Amphitheatre 走上舞台，给了 AI 视频行业一个所有人都没料到的东西。没有 Veo 4。没有任何带"Veo"字样的头条。取而代之的是更具战略意义的东西：Gemini Omni——一个原生处理文/图/音/视频生成的统一多模态模型；Gemini Spark——一个跑在云端 VM 上、每天 24 小时替你做事的个人 AI agent；以及一次定价重组，把 100 美元的 AI Ultra 套餐放在了 Google 消费 AI 战略的核心。

这场 keynote 改写了未来 12 个月 AI 视频赛道的脚本。下面是 Google 发布的全部内容、它真正意味着什么、以及发布次日 AI 视频行业现在站在哪里。

Gemini Omni：没人预测到的头条

最具战略意义的发布是 Gemini Omni——Google 称其为公司第一个真正统一的多模态生成系统。之前的 Google 阵容把能力分散在 Veo（视频）、Imagen（图像）和其他被串起来的系统里；Omni 在一个模型里原生处理文/图/音/视频生成。

Omni 框架下第一个公开模型是 Omni Flash。它接受文本、图像、音频的组合输入，输出带同步音效的短电影感视频。Google 现场演示用户上传一张静态图、用语音说指令、然后拿到一支动起来的场景，原生音频跟着语音方向走。编辑是对话式的——用嘴说要改哪里来微调一段片段，不用重新写 prompt 从头生成。

Omni 跟 Veo 体系在战略上有 3 个根本不同：

一个模型，不是一个栈。Veo 3 已经有原生音频，但 Google 更大的创作栈还是靠串接独立的图像生成、音频制作、编辑模型。Omni 把这条链子折叠了。战略含义是：Google 相信下一次质量飞跃来自跨模态联合训练，不是来自继续扩大纯视频模型。
世界基础上的生成。Demis Hassabis 把 Omni 定位为建立在 Google DeepMind 世界模型工作之上。卖点是 Omni 生成的视频在空间、时间、物理一致性上更强，因为底层模型有更丰富的内部世界表征。输出能不能在实践中验证这点，是我们未来一季度要 benchmark 的问题。
编辑作为一等能力。Omni 被定位为既是生成器也是编辑器。对话式微调、场景替换、remix 式操作都是产品表面的一部分，不是外挂层。这是产品哲学上一个有意义的转变，竞争对手要回应。

Omni 现在不做的事：长片段。Omni Flash 是短片，Google 明确说更长、更高级的生产工作流在规划但还没发。期待一次生成 60 秒叙事的人，还得等。

Gemini Spark：云端的 24/7 个人 agent

如果说 Omni 是多数评论员看错的头条，Spark 就是被低估最严重的发布。

Gemini Spark 是一个跑在 Google 专属云 VM 上、持续运行的个人 AI agent，能跨 Google 产品和通过 MCP（Model Context Protocol）连接的扩展第三方服务为你做事。Google 自己的产品描述是：一个可以"在你睡觉时帮你订餐厅、下 Instacart 单、起草你收件箱回复"的 agent。

战略意义难以高估。过去两年，Google 的消费 AI 故事就是 Gemini 作为聊天机器人。Spark 是 Google 明确承认——聊天机器人是错的框架，对的框架是一个跨应用、跨时间自主运行的 agent。Agent 读你的邮箱、在你的工具里执行、跨服务规划、报回结果。用户描述结果；Spark 处理执行。

这是 AI 视频行业过去一年一直在辩论的同一个论点，应用到通用生产力。Agent 层不再是创业公司的定位赌注。现在是 Google 的定位赌注。

定价值得注意。Spark 锁在新的 100 美元/月 AI Ultra 套餐后，下周向美国订阅者开放 beta。光定价就传递了一个信号：Google 相信有相当一批用户愿意付 11 美元 Gemini Pro 9 倍的价格，去拿一个真正能做事的 agent。

Gemini 3.5：底层模型更新

Omni 和 Spark 之下是基础模型的刷新。Gemini 3.5 Flash 昨天上线 Gemini app、Search、Antigravity、Gemini API。Google 的说法是：在编程、agentic、多模态 benchmark 上超过 Gemini 3.1 Pro，输出 token 速度大约是同档前沿模型的 4 倍。

Gemini 3.5 Pro 已宣布但还没普遍可用。在测试中，下月发布。

跨 Flash、Pro、Omni、Spark 的模式一致：Google 在 I/O 上发布的每个产品都建立在 agentic 能力轨道上。更快指令跟随、更长有效上下文、更好工具使用、更可靠的多步骤执行。模型层正在被塑造去服务它上面的 agent 层。

Antigravity 2.0：给开发者的故事

Antigravity 是 Google 的 agent 开发平台。昨天升到 2.0，重点是编排——让开发者组合、调度、监督多个互相协作并调用外部工具的 agent。

对 AI 视频的相关性间接但真实。随着越来越多 AI 视频工具从"单模型套壳"走向真正编排的流水线，跑、监控、调试这些编排的底层基础设施成了一个基础依赖。Antigravity 2.0 是 Google 想拥有这层基础设施，跟它拥有底下模型层的方式一样。

独立 agent 构建者会依赖 Google 的基础设施还是自建——是这场 keynote 留下的更有意思的开放问题之一。答案决定 Google 捕获多少 agent 经济、多少留在真正开放的部分。

100 美元 AI Ultra 套餐：价格底线重置

Google AI Ultra 起售价现在是每月 100 美元，更高一档 200 美元。之前的 Ultra 套餐是 250 美元。新的入门档包括 Gemini Spark beta、Gemini app 用量是 20 美元 Pro 档的 5 倍、20TB 云存储、YouTube Premium。

战略解读直接：Google 把高端消费 AI 激进定价，去抓那批将定义"一个 agent 产品该是什么感觉"的早期采用者。100 美元/月让 Spark 现在直接对标 ChatGPT Pro 和 Claude 消费档的高端。Agent 能力是差异化点——也是竞争对手未来 12 个月必须发出版本的能力，否则就把"生产力 agent"这个品类让出去。

对创作者和运营来说，相关问题是：每月 100 美元的个人 agent 是否真的显著加速你的工作。诚实的早期回答：完全取决于 Spark beta 是否兑现 demo。Demo 就是 demo。我们 90 天后会知道。

Android XR 和 Project Aura：硬件表面

Google 也发布了新的"智能眼镜"设备，包括跟 Xreal 合作的 XR 级 Project Aura。今年至少 3 个智能眼镜合作发布，把 Google 定位在 Meta 音频优先的 Ray-Ban 和完整 XR 头显之间。

AI 角度：这些设备由 Gemini 驱动。实时视觉上下文、语音交互、agentic 执行——全部可穿戴。对 AI 视频，影响是下游但真实的。带 Gemini 上下文的可穿戴相机变成视频创作的常驻输入设备，既用于参考采集，也用于移动中的即时编辑。距离这件事影响生产工作流还有 18 个月。距离它影响消费 demo 是零个月。

Android 17：OS 作为智能层

Sameer Samat 的 Android 更新把 OS 本身定位为从"操作系统"转变为"智能系统"。这个叙事——Gemini 跨应用理解上下文、预测需求、替用户执行——是 agent 层论点应用到移动平台。

具体功能不如叙事框架重要。Google 在承诺一个未来：OS 层和 agent 层折叠成一个栈，全部跑在 Gemini 基础模型上。对开发者来说，意味着"agent 感知的应用设计"不再是可选模式，而是 Google 围绕它造平台时的默认假设。

没发的：Veo 4 的缺席

最被关注但没发生的发布：Veo 4。没有 Veo 4 公布、没有 Veo 4 时间表、没有明确确认 Veo 是否被弃用、转去走 Omni 线。

最可能的解读：Google 在把生成视频工作整合到 Omni 之下，而不是继续平行的 Veo 开发。Omni Flash 被定位为新的起点。Veo 3.1 仍然是 Omni Flash 暂时覆盖不到的用例的生产级选项——尤其是更长单镜头生成、4K 输出、带 ID-embedding 的角色一致性，这些 Omni Flash 现在都不支持。

对更大的 AI 视频行业来说，这是个有意义的转向。18 个月的"Veo 下一步做什么"被替换成"Omni 是什么"。在 Veo 上做了自动化的运营方，要评估是等 Omni 在长片段上成熟、还是可见的未来里继续把生产线放在 Veo 3.1 上。大概率是两者并行，按不同内容类型分。

这对 AI 视频运营方意味着什么

从单个发布抽身看大图，昨天有 3 件事变了，会塑造未来一年的 AI 视频。

第一，模型策略变得复杂——但是有用的复杂。Omni 是统一多模态赌注，但 Omni Flash 只做短片。Veo 3.1 仍然扛长片段和高分辨率。真实生产流水线两者都用，在它们之间路由，并随 Omni 成熟动态切换。这套路由逻辑住在 agent 层。

第二，"agent 层思维"现在是共识。Spark 是 Google 公开承认：聊天机器人框架是过渡步骤，目的地是自主 agent。每一个还在辩论"做助理还是做 agent"的消费和企业 AI 产品团队，都拿到了一个尘埃落定的答案。竞争主战场移到 agent 层。

第三，对话式编辑改变创作者工作流。Omni 强调聊天里编辑——用嘴说要改哪里来微调——折叠了原来"先生成再编辑"的两步。对 AI 视频创作者，这是一次有意义的 UX 简化，竞争对手会被预期跟进。Genra 流水线已经支持对话式迭代；预计每个认真做 AI 视频的平台 6 个月内都会发版本。

Genra 接下来做什么

几条关于 Genra 接下来的诚实说明。

Omni Flash 一旦通过 Gemini API 开放就会接入。Genra 一直把 agent 层做成模型无关，正是为了让 Omni 这种新增是后端改动，不是工作流改动。用户会看到短片输出变好，是因为路由逻辑开始把 Omni Flash 用在它最擅长的镜头上。长片段、4K、高一致性用例继续跑在 Veo 和 Seedance 上。

Spark 被定位为"24/7 云端 agent"，是我们能要到的对 agent 层论点最强的背书。Genra 是视频生产领域的领域专属 agent。Spark 是个人生产力的通用 agent。两者共存得很舒服——就像 CRM agent 和编程 agent 跟通用生产力助理共存。

更大的竞争框架：Google 现在在平台层正式押注 agent 层，那对每个 AI 视频创业公司来说，问题不再是"agent 是不是未来"——这事尘埃落定。问题是哪些领域专属 agent 成为各自品类的可信选择。对 AI 视频，这是 Genra 设计来回答的问题。

关键要点

Google I/O 2026 没发 Veo 4。视频头条是 Gemini Omni——一个在单一系统里统一处理文/图/音/视频生成的多模态模型，Omni Flash 是第一个公开模型。
Gemini Spark——一个 24/7 云端常驻、跨 Google 产品和 MCP 连接的第三方服务为用户做事的个人 agent——是战略上最重要的发布。把 agent 层正式定为下一个平台战场。
Gemini 3.5 Flash 昨天上线；Gemini 3.5 Pro 在测试，下月发布。每一次基础模型更新都围绕 agentic 能力，不只是智能。
AI Ultra 重新定价：入门档 100 美元/月（顶档 200 美元），从之前的 250 美元降下来。Spark beta 锁在 100 美元档，下周对美国订阅者开放。
Antigravity 2.0 用编排工具扩展 Google 的 agent 开发平台——给 agent 构建者的基础设施棋。
Android XR 和 Project Aura 智能眼镜，加上 Android 17 的"智能系统"定位，把 agent 论点延伸到硬件和 OS 层。
Omni Flash 只做短片。Veo 3.1 仍然是长片、高分辨率、ID 一致性视频的生产工具。真实流水线两者都用。
对话式编辑作为 Omni 的一等能力，是竞争对手 6 个月内必须跟进的工作流转变。
Genra 在 Omni Flash 通过 API 开放时立即接入，用户会在路由后的短片镜头上悄悄看到质量提升。长片、4K、一致性关键的工作继续跑在 Veo 和 Seedance。

常见问题

Google 在 I/O 2026 发了 Veo 4 吗？

没发。完全没有 Veo 4 公布。Google 取而代之介绍了 Gemini Omni 模型系列，Omni Flash 是第一个公开可用模型。最可能的解读是 Google 在把生成视频工作整合到 Omni 框架之下，而不是继续平行的 Veo 各代。

Gemini Omni 是什么？

Gemini Omni 是 Google 新的统一多模态模型系列，能从组合输入原生生成文、图、音、视频。Omni Flash 是第一个公开模型，专注短片，带同步原生音频和对话式编辑。

Gemini Spark 是什么？

Gemini Spark 是一个 24/7 云端常驻的个人 AI agent，跑在 Google 专属 VM 上，通过 MCP 集成 Google 产品和 30+ 第三方服务，替用户执行——预订、下单、起草、管理任务。下周对美国 AI Ultra 订阅者开放 beta。

2026 年 Google AI Ultra 多少钱？

新 AI Ultra 入门档每月 100 美元，从之前的 250 美元降下来。更高档 200 美元。100 美元档包括 Gemini Spark beta、Gemini app 用量是 Pro 档 5 倍、20TB 云存储、YouTube Premium。

Gemini 3.5 Flash 是什么？

Gemini 3.5 Flash 是 Google 最新的快速档基础模型，2026 年 5 月 19 日上线。Google 称其在编程、agentic、多模态 benchmark 上超过 Gemini 3.1 Pro，输出速度约为同档前沿模型的 4 倍。在 Gemini app、Search、Antigravity、Gemini API 可用。

Antigravity 2.0 是什么？

Antigravity 是 Google 的 agent 开发平台。2.0 加入编排工具，让开发者组合、调度、监督多个互相协作的 agent。目标是 agent 产品之下的基础设施层。

Google 在 I/O 2026 关于智能眼镜发了什么？

Google 发布了新的 Android XR 级"智能眼镜"，包括跟 Xreal 合作的 Project Aura。至少 3 个智能眼镜合作在 2026 年秋季上市，把 Google 定位在音频优先的眼镜和完整 XR 头显之间。全部由 Gemini 驱动。

Genra 会接入 Gemini Omni 吗？

会。Genra 的设计让接入新模型是后端改动，不是工作流改动。Omni Flash 一旦通过 Gemini API 开放，就会加入 agent 的路由逻辑。用户会在短片输出上看到质量提升，不用改变工作方式。

I/O 2026 之后 Veo 3.1 还能用吗？

能。Veo 3.1 继续在 Google AI Studio 和 Vertex AI 可用。仍然是更长片段、4K 输出、需要 ID-embedding 角色一致性的用例的生产级选项——这些是 Omni Flash 目前不支持的。

I/O 2026 对 AI 视频创作者意味着什么？

三个转变。第一，模型策略现在跨 Omni（短片统一多模态）和 Veo 3.1（长片高分辨率）——真实流水线两者之间路由。第二，agent 层思维在平台层成为共识，不只是创业公司的定位赌注。第三，对话式编辑正在成为所有 AI 视频工具都要跟进的基础能力。

关于作者
Chris Sherman 关注 AI 视频技术、agent 架构和创意生产的商业化。关注 @GenraAI 持续跟进 I/O 之后的 AI 视频格局和 MiniMax 庭审（5 月 29 日）。