Google I/O 2026 专题复盘:没发 Veo 4,但 Gemini Omni 和 Spark 让 Agent 层正式上桌
· Chris Sherman过去两个月,整个 AI 视频行业都在聊 Veo 4。它没来。Google 在 I/O 2026 上发的是更大、也更奇怪的东西:统一文/图/音/视频生成的多模态模型 Gemini Omni、24/7 云端 agent Gemini Spark、把消费 AI 价格底线重置到 100 美元的 AI Ultra 新档,以及一个明确信号——Google 现在把 agent 层视为下一个平台战场。这里是完整解读。
昨天 Sundar Pichai 在 Shoreline Amphitheatre 走上舞台,给了 AI 视频行业一个所有人都没料到的东西。没有 Veo 4。没有任何带"Veo"字样的头条。取而代之的是更具战略意义的东西:Gemini Omni——一个原生处理文/图/音/视频生成的统一多模态模型;Gemini Spark——一个跑在云端 VM 上、每天 24 小时替你做事的个人 AI agent;以及一次定价重组,把 100 美元的 AI Ultra 套餐放在了 Google 消费 AI 战略的核心。
这场 keynote 改写了未来 12 个月 AI 视频赛道的脚本。下面是 Google 发布的全部内容、它真正意味着什么、以及发布次日 AI 视频行业现在站在哪里。
Gemini Omni:没人预测到的头条
最具战略意义的发布是 Gemini Omni——Google 称其为公司第一个真正统一的多模态生成系统。之前的 Google 阵容把能力分散在 Veo(视频)、Imagen(图像)和其他被串起来的系统里;Omni 在一个模型里原生处理文/图/音/视频生成。
Omni 框架下第一个公开模型是 Omni Flash。它接受文本、图像、音频的组合输入,输出带同步音效的短电影感视频。Google 现场演示用户上传一张静态图、用语音说指令、然后拿到一支动起来的场景,原生音频跟着语音方向走。编辑是对话式的——用嘴说要改哪里来微调一段片段,不用重新写 prompt 从头生成。
Omni 跟 Veo 体系在战略上有 3 个根本不同:
- 一个模型,不是一个栈。Veo 3 已经有原生音频,但 Google 更大的创作栈还是靠串接独立的图像生成、音频制作、编辑模型。Omni 把这条链子折叠了。战略含义是:Google 相信下一次质量飞跃来自跨模态联合训练,不是来自继续扩大纯视频模型。
- 世界基础上的生成。Demis Hassabis 把 Omni 定位为建立在 Google DeepMind 世界模型工作之上。卖点是 Omni 生成的视频在空间、时间、物理一致性上更强,因为底层模型有更丰富的内部世界表征。输出能不能在实践中验证这点,是我们未来一季度要 benchmark 的问题。
- 编辑作为一等能力。Omni 被定位为既是生成器也是编辑器。对话式微调、场景替换、remix 式操作都是产品表面的一部分,不是外挂层。这是产品哲学上一个有意义的转变,竞争对手要回应。
Omni 现在不做的事:长片段。Omni Flash 是短片,Google 明确说更长、更高级的生产工作流在规划但还没发。期待一次生成 60 秒叙事的人,还得等。
Gemini Spark:云端的 24/7 个人 agent
如果说 Omni 是多数评论员看错的头条,Spark 就是被低估最严重的发布。
Gemini Spark 是一个跑在 Google 专属云 VM 上、持续运行的个人 AI agent,能跨 Google 产品和通过 MCP(Model Context Protocol)连接的扩展第三方服务为你做事。Google 自己的产品描述是:一个可以"在你睡觉时帮你订餐厅、下 Instacart 单、起草你收件箱回复"的 agent。
战略意义难以高估。过去两年,Google 的消费 AI 故事就是 Gemini 作为聊天机器人。Spark 是 Google 明确承认——聊天机器人是错的框架,对的框架是一个跨应用、跨时间自主运行的 agent。Agent 读你的邮箱、在你的工具里执行、跨服务规划、报回结果。用户描述结果;Spark 处理执行。
这是 AI 视频行业过去一年一直在辩论的同一个论点,应用到通用生产力。Agent 层不再是创业公司的定位赌注。现在是 Google 的定位赌注。
定价值得注意。Spark 锁在新的 100 美元/月 AI Ultra 套餐后,下周向美国订阅者开放 beta。光定价就传递了一个信号:Google 相信有相当一批用户愿意付 11 美元 Gemini Pro 9 倍的价格,去拿一个真正能做事的 agent。
Gemini 3.5:底层模型更新
Omni 和 Spark 之下是基础模型的刷新。Gemini 3.5 Flash 昨天上线 Gemini app、Search、Antigravity、Gemini API。Google 的说法是:在编程、agentic、多模态 benchmark 上超过 Gemini 3.1 Pro,输出 token 速度大约是同档前沿模型的 4 倍。
Gemini 3.5 Pro 已宣布但还没普遍可用。在测试中,下月发布。
跨 Flash、Pro、Omni、Spark 的模式一致:Google 在 I/O 上发布的每个产品都建立在 agentic 能力轨道上。更快指令跟随、更长有效上下文、更好工具使用、更可靠的多步骤执行。模型层正在被塑造去服务它上面的 agent 层。
Antigravity 2.0:给开发者的故事
Antigravity 是 Google 的 agent 开发平台。昨天升到 2.0,重点是编排——让开发者组合、调度、监督多个互相协作并调用外部工具的 agent。
对 AI 视频的相关性间接但真实。随着越来越多 AI 视频工具从"单模型套壳"走向真正编排的流水线,跑、监控、调试这些编排的底层基础设施成了一个基础依赖。Antigravity 2.0 是 Google 想拥有这层基础设施,跟它拥有底下模型层的方式一样。
独立 agent 构建者会依赖 Google 的基础设施还是自建——是这场 keynote 留下的更有意思的开放问题之一。答案决定 Google 捕获多少 agent 经济、多少留在真正开放的部分。
100 美元 AI Ultra 套餐:价格底线重置
Google AI Ultra 起售价现在是每月 100 美元,更高一档 200 美元。之前的 Ultra 套餐是 250 美元。新的入门档包括 Gemini Spark beta、Gemini app 用量是 20 美元 Pro 档的 5 倍、20TB 云存储、YouTube Premium。
战略解读直接:Google 把高端消费 AI 激进定价,去抓那批将定义"一个 agent 产品该是什么感觉"的早期采用者。100 美元/月让 Spark 现在直接对标 ChatGPT Pro 和 Claude 消费档的高端。Agent 能力是差异化点——也是竞争对手未来 12 个月必须发出版本的能力,否则就把"生产力 agent"这个品类让出去。
对创作者和运营来说,相关问题是:每月 100 美元的个人 agent 是否真的显著加速你的工作。诚实的早期回答:完全取决于 Spark beta 是否兑现 demo。Demo 就是 demo。我们 90 天后会知道。
Android XR 和 Project Aura:硬件表面
Google 也发布了新的"智能眼镜"设备,包括跟 Xreal 合作的 XR 级 Project Aura。今年至少 3 个智能眼镜合作发布,把 Google 定位在 Meta 音频优先的 Ray-Ban 和完整 XR 头显之间。
AI 角度:这些设备由 Gemini 驱动。实时视觉上下文、语音交互、agentic 执行——全部可穿戴。对 AI 视频,影响是下游但真实的。带 Gemini 上下文的可穿戴相机变成视频创作的常驻输入设备,既用于参考采集,也用于移动中的即时编辑。距离这件事影响生产工作流还有 18 个月。距离它影响消费 demo 是零个月。
Android 17:OS 作为智能层
Sameer Samat 的 Android 更新把 OS 本身定位为从"操作系统"转变为"智能系统"。这个叙事——Gemini 跨应用理解上下文、预测需求、替用户执行——是 agent 层论点应用到移动平台。
具体功能不如叙事框架重要。Google 在承诺一个未来:OS 层和 agent 层折叠成一个栈,全部跑在 Gemini 基础模型上。对开发者来说,意味着"agent 感知的应用设计"不再是可选模式,而是 Google 围绕它造平台时的默认假设。
没发的:Veo 4 的缺席
最被关注但没发生的发布:Veo 4。没有 Veo 4 公布、没有 Veo 4 时间表、没有明确确认 Veo 是否被弃用、转去走 Omni 线。
最可能的解读:Google 在把生成视频工作整合到 Omni 之下,而不是继续平行的 Veo 开发。Omni Flash 被定位为新的起点。Veo 3.1 仍然是 Omni Flash 暂时覆盖不到的用例的生产级选项——尤其是更长单镜头生成、4K 输出、带 ID-embedding 的角色一致性,这些 Omni Flash 现在都不支持。
对更大的 AI 视频行业来说,这是个有意义的转向。18 个月的"Veo 下一步做什么"被替换成"Omni 是什么"。在 Veo 上做了自动化的运营方,要评估是等 Omni 在长片段上成熟、还是可见的未来里继续把生产线放在 Veo 3.1 上。大概率是两者并行,按不同内容类型分。
这对 AI 视频运营方意味着什么
从单个发布抽身看大图,昨天有 3 件事变了,会塑造未来一年的 AI 视频。
第一,模型策略变得复杂——但是有用的复杂。Omni 是统一多模态赌注,但 Omni Flash 只做短片。Veo 3.1 仍然扛长片段和高分辨率。真实生产流水线两者都用,在它们之间路由,并随 Omni 成熟动态切换。这套路由逻辑住在 agent 层。
第二,"agent 层思维"现在是共识。Spark 是 Google 公开承认:聊天机器人框架是过渡步骤,目的地是自主 agent。每一个还在辩论"做助理还是做 agent"的消费和企业 AI 产品团队,都拿到了一个尘埃落定的答案。竞争主战场移到 agent 层。
第三,对话式编辑改变创作者工作流。Omni 强调聊天里编辑——用嘴说要改哪里来微调——折叠了原来"先生成再编辑"的两步。对 AI 视频创作者,这是一次有意义的 UX 简化,竞争对手会被预期跟进。Genra 流水线已经支持对话式迭代;预计每个认真做 AI 视频的平台 6 个月内都会发版本。
Genra 接下来做什么
几条关于 Genra 接下来的诚实说明。
Omni Flash 一旦通过 Gemini API 开放就会接入。Genra 一直把 agent 层做成模型无关,正是为了让 Omni 这种新增是后端改动,不是工作流改动。用户会看到短片输出变好,是因为路由逻辑开始把 Omni Flash 用在它最擅长的镜头上。长片段、4K、高一致性用例继续跑在 Veo 和 Seedance 上。
Spark 被定位为"24/7 云端 agent",是我们能要到的对 agent 层论点最强的背书。Genra 是视频生产领域的领域专属 agent。Spark 是个人生产力的通用 agent。两者共存得很舒服——就像 CRM agent 和编程 agent 跟通用生产力助理共存。
更大的竞争框架:Google 现在在平台层正式押注 agent 层,那对每个 AI 视频创业公司来说,问题不再是"agent 是不是未来"——这事尘埃落定。问题是哪些领域专属 agent 成为各自品类的可信选择。对 AI 视频,这是 Genra 设计来回答的问题。
关键要点
- Google I/O 2026 没发 Veo 4。视频头条是 Gemini Omni——一个在单一系统里统一处理文/图/音/视频生成的多模态模型,Omni Flash 是第一个公开模型。
- Gemini Spark——一个 24/7 云端常驻、跨 Google 产品和 MCP 连接的第三方服务为用户做事的个人 agent——是战略上最重要的发布。把 agent 层正式定为下一个平台战场。
- Gemini 3.5 Flash 昨天上线;Gemini 3.5 Pro 在测试,下月发布。每一次基础模型更新都围绕 agentic 能力,不只是智能。
- AI Ultra 重新定价:入门档 100 美元/月(顶档 200 美元),从之前的 250 美元降下来。Spark beta 锁在 100 美元档,下周对美国订阅者开放。
- Antigravity 2.0 用编排工具扩展 Google 的 agent 开发平台——给 agent 构建者的基础设施棋。
- Android XR 和 Project Aura 智能眼镜,加上 Android 17 的"智能系统"定位,把 agent 论点延伸到硬件和 OS 层。
- Omni Flash 只做短片。Veo 3.1 仍然是长片、高分辨率、ID 一致性视频的生产工具。真实流水线两者都用。
- 对话式编辑作为 Omni 的一等能力,是竞争对手 6 个月内必须跟进的工作流转变。
- Genra 在 Omni Flash 通过 API 开放时立即接入,用户会在路由后的短片镜头上悄悄看到质量提升。长片、4K、一致性关键的工作继续跑在 Veo 和 Seedance。
常见问题
Google 在 I/O 2026 发了 Veo 4 吗?
没发。完全没有 Veo 4 公布。Google 取而代之介绍了 Gemini Omni 模型系列,Omni Flash 是第一个公开可用模型。最可能的解读是 Google 在把生成视频工作整合到 Omni 框架之下,而不是继续平行的 Veo 各代。
Gemini Omni 是什么?
Gemini Omni 是 Google 新的统一多模态模型系列,能从组合输入原生生成文、图、音、视频。Omni Flash 是第一个公开模型,专注短片,带同步原生音频和对话式编辑。
Gemini Spark 是什么?
Gemini Spark 是一个 24/7 云端常驻的个人 AI agent,跑在 Google 专属 VM 上,通过 MCP 集成 Google 产品和 30+ 第三方服务,替用户执行——预订、下单、起草、管理任务。下周对美国 AI Ultra 订阅者开放 beta。
2026 年 Google AI Ultra 多少钱?
新 AI Ultra 入门档每月 100 美元,从之前的 250 美元降下来。更高档 200 美元。100 美元档包括 Gemini Spark beta、Gemini app 用量是 Pro 档 5 倍、20TB 云存储、YouTube Premium。
Gemini 3.5 Flash 是什么?
Gemini 3.5 Flash 是 Google 最新的快速档基础模型,2026 年 5 月 19 日上线。Google 称其在编程、agentic、多模态 benchmark 上超过 Gemini 3.1 Pro,输出速度约为同档前沿模型的 4 倍。在 Gemini app、Search、Antigravity、Gemini API 可用。
Antigravity 2.0 是什么?
Antigravity 是 Google 的 agent 开发平台。2.0 加入编排工具,让开发者组合、调度、监督多个互相协作的 agent。目标是 agent 产品之下的基础设施层。
Google 在 I/O 2026 关于智能眼镜发了什么?
Google 发布了新的 Android XR 级"智能眼镜",包括跟 Xreal 合作的 Project Aura。至少 3 个智能眼镜合作在 2026 年秋季上市,把 Google 定位在音频优先的眼镜和完整 XR 头显之间。全部由 Gemini 驱动。
Genra 会接入 Gemini Omni 吗?
会。Genra 的设计让接入新模型是后端改动,不是工作流改动。Omni Flash 一旦通过 Gemini API 开放,就会加入 agent 的路由逻辑。用户会在短片输出上看到质量提升,不用改变工作方式。
I/O 2026 之后 Veo 3.1 还能用吗?
能。Veo 3.1 继续在 Google AI Studio 和 Vertex AI 可用。仍然是更长片段、4K 输出、需要 ID-embedding 角色一致性的用例的生产级选项——这些是 Omni Flash 目前不支持的。
I/O 2026 对 AI 视频创作者意味着什么?
三个转变。第一,模型策略现在跨 Omni(短片统一多模态)和 Veo 3.1(长片高分辨率)——真实流水线两者之间路由。第二,agent 层思维在平台层成为共识,不只是创业公司的定位赌注。第三,对话式编辑正在成为所有 AI 视频工具都要跟进的基础能力。
关于作者
Chris Sherman 关注 AI 视频技术、agent 架构和创意生产的商业化。关注 @GenraAI 持续跟进 I/O 之后的 AI 视频格局和 MiniMax 庭审(5 月 29 日)。