Gemini Omni 泄露解读:I/O 前夕的全部线索

· Chris Sherman

5 月 2 日是一段 UI 文案。5 月 11 日是第一批生成片段。5 月 19-20 日是 Google 主题演讲。距 I/O 还有六天,关于 Gemini Omni 我们已知的——以及尚未知的。

两幕式泄露

对于一个尚未公布的模型来说,Gemini Omni 的预热路径异常清晰。线索始于 2026 年 5 月 2 日:一位 X 用户在 Gemini 的视频生成标签页发现了一段隐藏 UI 文案——"Start with an idea or try a template. Powered by Omni."(用一个创意开始,或试试模板。由 Omni 驱动。)TestingCatalog 当天发文。这段字符串在那里静静躺了九天,外界开始猜测。

然后是 2026 年 5 月 11 日,第二只靴子落地。从至少一个 Gemini Pro 账号泄露出了生成片段——明显出自不同于公开版 Veo 3.1 的模型。其中两段最受关注:一段海边餐厅吃意面的场景,一段教授在黑板上推导三角函数证明的场景。24 小时内 9to5Google、Android Authority、Chrome Unboxed 等十几家媒体跟进报道。

下一个关键节点是 2026 年 5 月 19-20 日 Google I/O。读到这篇文章时差不多就是六天后。Google 已确认 Gemini 与 AI 相关更新会出现在议程里,但没有正面承认 Omni 这个名字。

这篇文章是 5 月 13 日的快照——刚好卡在中间。哪些是真的、哪些是猜测、片段暗示了什么、主题演讲时该盯什么。我们会在 I/O 之后更新。

时间线一览

日期 事件 来源可信度
2026-05-02 "Powered by Omni" UI 文案在 Gemini 视频标签页内被发现 高——UI 截图广泛流传
2026-05-02 至 10 猜测期。无具体生成产物,但多家媒体确认字符串真实存在 已验证
2026-05-11 Gemini Pro 账号泄出生成片段——意面海景、黑板教授 高——多家媒体独立报道相同片段
2026-05-11 至 12 更完整 UI 文案浮出:"Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more" 已验证
2026-05-19 至 20 Google I/O 2026 主题演讲——最可能的官方发布窗口 已排期(尚未发生)

有两点值得注意。第一,这次泄露发生在产品内,不是营销口风——Google 似乎在公开发布前已经向小部分 Gemini Pro 用户开始灰度,而灰度本身被截图传开了。这个信号比媒体提前放风可信得多。第二,那段更完整的 UI 文案("remix your videos, edit directly in chat, try templates")告诉你 Google 是把它定位成工作流产品而不是模型——"在聊天里直接编辑"和"重混"是消费者产品语言,不是 benchmark 语言。

两段泄露片段到底展示了什么

两段泄露片段是当前最具体的信息。两段都很短,不到 10 秒,都是用户在 Gemini Pro Web 界面输入文本提示词生成的。

片段一:海边意面

一位用餐者在海边餐厅吃意面,夕阳光线,地中海环境音。值得注意的不是画面精度——那个层级 Veo 3.1 已经达到。值得注意的是意面表现得像意面。它在叉子上缠绕,落回时有重量,从叉子到嘴的运动连贯。物理强度高的食物场景历来是视频模型的弱项——餐具和食物会变形扭曲,面条会断裂,重力在某一帧突然失效。这段泄露片段处理得很干净,意味着底层模型的物理先验明显强于公开版 Veo 3.1。

片段二:黑板教授

一位教授在黑板上推导三角函数证明。摄影机定在黑板上看他写。这里值得注意的是文字和公式的渲染。AI 视频模型在连贯文字上向来失败——字母在帧与帧之间漂移、方程到一半变成乱码、任何看起来像数学的东西通常都会崩。这段黑板片段在跨帧间保持了可识别的数学符号,教授的手部动作也正确跟踪了笔画。这不是小幅改进,这是两年内一直没解决的问题。

两段片段合起来意味着什么

如果泄露片段具有代表性——这个"如果"需要认真对待,因为 Google 当然会让对外流出的样本是最强的——那么 Omni 瞄准的就是 AI 视频两个最难的已知弱项:复杂物理与画面内文字渲染。这恰好是 Sora 2 退场和 HappyHorse 1.0 发布共同指明的下一个前沿。(这条主线见我们的 2026 年中盘点。)

选择什么样的内容来演示是有讲究的。意面场景和数学课不是美学秀,而是能力秀,针对的正是竞争对手做不可靠的两个点。这告诉你 Google 把 Omni 摆在哪个位置。

Omni 究竟是什么——三种主流假说

这是 I/O 前夕猜测的核心。关于 Omni 是什么,有三种可信解读,每一种对市场后续走向的暗示都完全不同。

假说一:Veo 3.1 的消费端品牌重塑

最简单的解读:Omni 只是 Gemini 消费版 App 内现有 Veo 管线的新公开名字。底层生成栈不变。Google 把"Veo"品牌从消费端撤下,保留它在 Vertex AI 企业 API 上的使用,并给 Gemini 聊天体验一个统一的产品名。

支持证据:Google 有改名的历史。Bard → Gemini 是最显眼的一次。"Veo 3.1"作为消费端品牌一直很别扭——版本号卖不动非技术用户。UI 文案("重混你的视频、在聊天里编辑")强调工作流而不是模型新意。

反对证据:泄露片段展示的能力肉眼可见超过公开版 Veo 3.1,尤其是物理与文字渲染。纯粹的改名不会产生明显不同的输出。除非 Google 在 Omni 品牌下悄悄上线了 Veo 3.2,否则这种解释无法解释片段。

假说二:独立的 Gemini 自训视频模型

中间解读:Omni 是 Gemini 体系下新训的视频模型——与 DeepMind 的 Veo 管线分开——在 Google 路线图上与 Veo 并列而非替代。消费端 Gemini 用 Omni;Vertex AI 上的企业客户继续用 Veo。两者并行演进。

支持证据:Google 历史上一直维持平行模型线(Gemini 面向消费者,独立研究线面向企业)。泄露片段的能力跳跃与一个采用不同数据混合和架构、独立于 Veo 3.1 训练的模型一致。

反对证据:同时跑两条顶级视频模型线很贵。Sora 2 的退场——我们做过完整复盘——已经证明即使是 OpenAI 也撑不起一条消费视频模型的规模化运营;并行跑两条是个奇怪的战略选择。

假说三:统一全模态模型(图像 + 视频 + 音频单次前向)

最激进的解读:Omni 是新 Gemini 自训模型家族的第一个成员,在单次前向中同时处理图像生成、视频生成和同步音频。这就是 HappyHorse 1.0 在 4 月以 15B 参数统一音视频模型登顶 Arena 时开创的架构。在这种假说下,Omni 同时替代当前的 Veo 管线(视频)和 Nano Banana Pro 栈(图像),用单一多模态生成器统一两个产品线。

支持证据:"Omni"这个名字本身就强烈暗示了多模态覆盖。UI 框架("我们新的视频模型,重混视频,在聊天里直接编辑")暗示单一产品界面跨多个模态。来自 HappyHorse 的统一架构竞争压力很急——Google 从 4 月开始就在 Arena 榜首位置上失守。(架构细节见我们的 HappyHorse 1.0 评测。)

反对证据:统一全模态模型技术上难度极高,Google 在向消费端推送新颖架构上一直比字节或阿里更保守。在一场公开主题演讲上同时替换两条生产管线是高风险选择。

赔率在哪里

业内观察者大致以 30/30/40 分布在三种假说上。基于 UI 框架和片段能力跳跃,最可信的读法是假说二与假说三的混合:一个新的 Gemini 自训模型,至少在视频和音频上做统一处理,而 Veo 在 Vertex AI 上继续给需要稳定性的企业客户用。再过六天我们就知道答案。

为什么这件事的意义超出 Google

Omni 之所以重要,不是因为 Google 又出了一个新视频模型——新视频模型每个月都在出。Omni 之所以重要,是因为如果假说三成立,它意味着什么。

AI 视频行业过去四个月一直在看统一全模态架构这条主线落地。Sora 2 在 84 天内崩盘,跑的是分管线架构。HappyHorse 1.0 用 15B 统一架构在 48 小时内冲上 Arena 第一。Seedance 2.0 通过双分支 Transformer 同时输出音视频。整个一季度技术重心都在向统一架构倾斜,而唯一没有响应的西方头部实验室就是 Google。

如果 Omni 是真正的统一模型——假说三——Google 就匹配上了中国头部厂商确立的架构方向。这有三个连锁影响:

  1. Veo 品牌整合或退役。一个分管线的 Veo 跟统一架构的 Omni 并存 12 个月以上没有道理。Vertex AI 上的企业客户会期待迁移路径。
  2. 中西架构差距合拢。"中国模型因为先做统一架构所以有结构性领先"这种叙述,在 Google 也上线了自己的统一模型之后会弱化。
  3. 模型层差异化继续压缩。如果前六的模型里有四个都用统一音视频架构,模型层进一步商品化,agent 层成为唯一有意义的差异化点。这是我们 2026 年中盘点 的核心论点,Omni 会延伸它。

如果 Omni 只是改名(假说一),以上大部分都不适用。但泄露片段让假说一成为三种里最不可能的。

I/O 上要盯的六个信号

5 月 19 日主题演讲开场后,下面这些信号告诉你哪种假说成立。单独看每一项都不算决定性,组合起来就能勾勒出完整画面。

信号一:Google 在演讲台上还提"Veo"吗?

如果 Veo 在面向消费者的 Gemini 段里被刻意淡化,那是 Veo 作为消费端品牌正在退役的证据。如果 Veo 还跟 Omni 一起被提及,两者并存(假说二)。如果两者都提但 Veo 只被定位给企业,那么迁移已经开始。

信号二:Omni 在同一次调用里生成音频吗?

一次 API 调用同时返回同步的视频 + 音频是统一全模态模型的技术签名(假说三)。两次独立调用——先视频再音频合成——是上一代架构模式。主题演讲的 demo 应该会展示清楚。

信号三:Omni 同时处理图像生成吗?

如果 Omni 仅被定位为新的视频模型,覆盖面就更窄。如果 Omni 把图像生成也吸收进去——替代 Gemini 聊天界面内的 Nano Banana Pro——这是更广义统一模态论的证据。盯紧主题演讲里任何图像生成 demo 是归在 "Omni" 名下还是仍然写着 Nano Banana / Imagen。

信号四:首发当天有 API 吗?

Veo 3.1 当年是主题演讲当天就上线了 Vertex AI。如果 Omni 在 5 月 19-20 当天就公开 API 与定价,它的定位就是即刻可用于生产。如果只放消费版、API"今年晚些时候"再说,Google 走的就是 Sora 2 的零售先行路线——我们已经看到这条路在规模上经济不成立。

信号五:定价结构如何?

当前公开顶级 API 定价基准大致是 $0.05/秒(HappyHorse 1.0)到 $0.50/秒(Veo 3.1)。如果 Omni 的 API 定价靠近 HappyHorse,Google 在打成本战;靠近 Veo 3.1,Google 在打质量战。选择会告诉你 Google 优先抢哪个市场。

信号六:Project Astra 怎么对接?

Google 从 2024 年起每届 I/O 都在演示 Project Astra——其实时多模态助手。如果 Astra 在 5 月 19-20 突然变成产品并且底层跑的是 Omni,这才是更大的"omni"论:不只是视频模型,而是横跨整个 Gemini 体验的实时多模态 AI 界面。

这对你的工作流意味着什么

主题演讲之前可以先想清楚的三件实务事。

如果你直接用 Gemini 做创作

暂时什么都不用改。如果 Omni 下周在消费端 Gemini 上线,它就是替代或升级现有的视频生成体验。"重混视频、在聊天里直接编辑"的描述意味着你已经熟悉的聊天驱动工作流,只不过底层模型更强。等正式公布、试用新能力之后再根据实际变化调你的提示词。

如果你在 Vertex AI 上做开发

密切关注信号一(Veo 品牌)和信号四(API 可用性)。如果 Veo 在消费端退役但在 Vertex AI 上继续给企业用,你现有的集成是安全的。如果 Omni 在 Vertex AI 上完全替代 Veo,你面前就有一次 API 迁移。无论哪种情况,把集成放在 agent 或编排层之后,模型替换就是配置变更,不是代码变更。

如果你跑的是多模型 agent 栈

这正是我们在近期文章里一直主张的状态。(见 六大转向长视频瓶颈 两篇。)多模型 agent 把 Omni 当成路由表里的又一个生成器——和 Veo、Seedance、HappyHorse、可灵、Luma、Runway 并列。Agent 层才是真正有产能的问题所在:这条 60 秒视频里的某一镜,路由到哪个模型。Omni 公布只是给路由表加一项,不改变你跑的架构。

这也是我们把 Genra 的栈做成模型无关的原因:模型层一直在动,agent 层才会复利。

距离 I/O 六天,结论先放在这里

已知:Gemini 视频标签页内确实有一个叫 Omni 的真实模型,输出在物理和文字渲染上肉眼可见强于公开版 Veo 3.1,Google 把它框定为聊天驱动的工作流产品。未知:它究竟是改名、并行新模型,还是统一全模态系统。

最有用的单条预测是第三种。如果假说三成立,5 月 19 日西方与中国在架构上的差距就合拢,行业回到所有头部实验室都在跑统一音视频架构的多极竞争。如果假说三不成立,Google 仍然在 HappyHorse 划定的架构前沿之后——4 月之后的竞争格局不变。

不管哪种结果,实务结论一致:模型层一直在动,agent 层才是该被建设的地方。Omni 改变不了这一点。它要么强化它(在路由表里加一个商品化模型),要么不挪针(如果是改名)。那些已经把差异化挪到 agent 基础设施上的团队,5 月 19 日 Google 公布的任何东西对他们来说都是一次配置更新。仍把宝压在单一英雄模型上的团队,Q2 剩下的时间都会用来回炉重建。

主题演讲之后我们会更新这篇文章,把真正官宣的内容补进来。

常见问题

Gemini Omni 是什么?

Gemini Omni 是一个尚未公布的 AI 视频生成模型,通过 Google Gemini 界面内的两次泄露浮出水面——2026 年 5 月 2 日的 UI 文案,以及 5 月 11 日从 Gemini Pro 账号流出的生成片段。截至 5 月 13 日 Google 尚未正式承认 Omni。最可能的发布窗口是 2026 年 5 月 19-20 日 Google I/O。

Gemini Omni 会替代 Veo 吗?

未确认。有三种假说:Omni 是 Veo 3.1 的消费端改名;Omni 是一个独立的 Gemini 自训新模型,与 Veo 并存;Omni 是统一全模态模型,同时替代 Veo 和 Google 的图像栈。泄露片段展示的能力超过公开版 Veo 3.1,使得纯改名假说成为三种里最不可能的。

泄露的片段展示了什么?

最受关注的两段:一段海边餐厅吃意面(亮点是处理了物理强度高的食物动作,现有模型通常会崩),一段教授在黑板上推导三角函数证明(亮点是跨帧间渲染连贯的数学符号,AI 视频模型历来失败的项目)。这两个能力区都是视频模型行业公认的薄弱点。

什么时候才能知道 Omni 到底是什么?

2026 年 5 月 19-20 日 Google I/O。主题演讲最可能确认或否认 Omni 这个名字、是否替代 Veo、是否在视频之外覆盖音频和图像生成。盯紧六个具体信号:Veo 还有没有被提到、音频是不是和视频同一次调用生成、图像生成是否被纳入、当天有没有 API、定价结构如何、Project Astra 如何对接。

作为创作者,公告前我该做什么?

暂时什么都不要改。如果你用消费版 Gemini,等正式发布再试新能力。如果你在 Vertex AI 上,关注 API 迁移路径。如果你跑多模型 agent 栈,把 Omni 当成路由表里的又一个生成器——它不改变你跑的架构。

Omni 与 HappyHorse 1.0 比较如何?

HappyHorse 1.0 在 2026 年 4 月 7 日发布后 48 小时内冲上 Artificial Analysis Video Arena 第一,采用 15B 参数统一音视频架构。如果 Omni 也是统一全模态模型,它就是 Google 对那条架构方向的第一次回应。如果 Omni 是分管线模型(假说二)或改名(假说一),那么 Google 在 HappyHorse 划定的统一架构前沿之后继续落后。


关于作者
Chris Sherman 长期报道 AI 视频技术与创作生产流程。Google I/O 2026 主题演讲(5 月 19-20)期间,关注 @GenraAI 获取实时跟进。