Gemini Omni 泄露解读:I/O 前夕的全部线索
· Chris Sherman5 月 2 日是一段 UI 文案。5 月 11 日是第一批生成片段。5 月 19-20 日是 Google 主题演讲。距 I/O 还有六天,关于 Gemini Omni 我们已知的——以及尚未知的。
两幕式泄露
对于一个尚未公布的模型来说,Gemini Omni 的预热路径异常清晰。线索始于 2026 年 5 月 2 日:一位 X 用户在 Gemini 的视频生成标签页发现了一段隐藏 UI 文案——"Start with an idea or try a template. Powered by Omni."(用一个创意开始,或试试模板。由 Omni 驱动。)TestingCatalog 当天发文。这段字符串在那里静静躺了九天,外界开始猜测。
然后是 2026 年 5 月 11 日,第二只靴子落地。从至少一个 Gemini Pro 账号泄露出了生成片段——明显出自不同于公开版 Veo 3.1 的模型。其中两段最受关注:一段海边餐厅吃意面的场景,一段教授在黑板上推导三角函数证明的场景。24 小时内 9to5Google、Android Authority、Chrome Unboxed 等十几家媒体跟进报道。
下一个关键节点是 2026 年 5 月 19-20 日 Google I/O。读到这篇文章时差不多就是六天后。Google 已确认 Gemini 与 AI 相关更新会出现在议程里,但没有正面承认 Omni 这个名字。
这篇文章是 5 月 13 日的快照——刚好卡在中间。哪些是真的、哪些是猜测、片段暗示了什么、主题演讲时该盯什么。我们会在 I/O 之后更新。
时间线一览
| 日期 | 事件 | 来源可信度 |
|---|---|---|
| 2026-05-02 | "Powered by Omni" UI 文案在 Gemini 视频标签页内被发现 | 高——UI 截图广泛流传 |
| 2026-05-02 至 10 | 猜测期。无具体生成产物,但多家媒体确认字符串真实存在 | 已验证 |
| 2026-05-11 | Gemini Pro 账号泄出生成片段——意面海景、黑板教授 | 高——多家媒体独立报道相同片段 |
| 2026-05-11 至 12 | 更完整 UI 文案浮出:"Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more" | 已验证 |
| 2026-05-19 至 20 | Google I/O 2026 主题演讲——最可能的官方发布窗口 | 已排期(尚未发生) |
有两点值得注意。第一,这次泄露发生在产品内,不是营销口风——Google 似乎在公开发布前已经向小部分 Gemini Pro 用户开始灰度,而灰度本身被截图传开了。这个信号比媒体提前放风可信得多。第二,那段更完整的 UI 文案("remix your videos, edit directly in chat, try templates")告诉你 Google 是把它定位成工作流产品而不是模型——"在聊天里直接编辑"和"重混"是消费者产品语言,不是 benchmark 语言。
两段泄露片段到底展示了什么
两段泄露片段是当前最具体的信息。两段都很短,不到 10 秒,都是用户在 Gemini Pro Web 界面输入文本提示词生成的。
片段一:海边意面
一位用餐者在海边餐厅吃意面,夕阳光线,地中海环境音。值得注意的不是画面精度——那个层级 Veo 3.1 已经达到。值得注意的是意面表现得像意面。它在叉子上缠绕,落回时有重量,从叉子到嘴的运动连贯。物理强度高的食物场景历来是视频模型的弱项——餐具和食物会变形扭曲,面条会断裂,重力在某一帧突然失效。这段泄露片段处理得很干净,意味着底层模型的物理先验明显强于公开版 Veo 3.1。
片段二:黑板教授
一位教授在黑板上推导三角函数证明。摄影机定在黑板上看他写。这里值得注意的是文字和公式的渲染。AI 视频模型在连贯文字上向来失败——字母在帧与帧之间漂移、方程到一半变成乱码、任何看起来像数学的东西通常都会崩。这段黑板片段在跨帧间保持了可识别的数学符号,教授的手部动作也正确跟踪了笔画。这不是小幅改进,这是两年内一直没解决的问题。
两段片段合起来意味着什么
如果泄露片段具有代表性——这个"如果"需要认真对待,因为 Google 当然会让对外流出的样本是最强的——那么 Omni 瞄准的就是 AI 视频两个最难的已知弱项:复杂物理与画面内文字渲染。这恰好是 Sora 2 退场和 HappyHorse 1.0 发布共同指明的下一个前沿。(这条主线见我们的 2026 年中盘点。)
选择什么样的内容来演示是有讲究的。意面场景和数学课不是美学秀,而是能力秀,针对的正是竞争对手做不可靠的两个点。这告诉你 Google 把 Omni 摆在哪个位置。
Omni 究竟是什么——三种主流假说
这是 I/O 前夕猜测的核心。关于 Omni 是什么,有三种可信解读,每一种对市场后续走向的暗示都完全不同。
假说一:Veo 3.1 的消费端品牌重塑
最简单的解读:Omni 只是 Gemini 消费版 App 内现有 Veo 管线的新公开名字。底层生成栈不变。Google 把"Veo"品牌从消费端撤下,保留它在 Vertex AI 企业 API 上的使用,并给 Gemini 聊天体验一个统一的产品名。
支持证据:Google 有改名的历史。Bard → Gemini 是最显眼的一次。"Veo 3.1"作为消费端品牌一直很别扭——版本号卖不动非技术用户。UI 文案("重混你的视频、在聊天里编辑")强调工作流而不是模型新意。
反对证据:泄露片段展示的能力肉眼可见超过公开版 Veo 3.1,尤其是物理与文字渲染。纯粹的改名不会产生明显不同的输出。除非 Google 在 Omni 品牌下悄悄上线了 Veo 3.2,否则这种解释无法解释片段。
假说二:独立的 Gemini 自训视频模型
中间解读:Omni 是 Gemini 体系下新训的视频模型——与 DeepMind 的 Veo 管线分开——在 Google 路线图上与 Veo 并列而非替代。消费端 Gemini 用 Omni;Vertex AI 上的企业客户继续用 Veo。两者并行演进。
支持证据:Google 历史上一直维持平行模型线(Gemini 面向消费者,独立研究线面向企业)。泄露片段的能力跳跃与一个采用不同数据混合和架构、独立于 Veo 3.1 训练的模型一致。
反对证据:同时跑两条顶级视频模型线很贵。Sora 2 的退场——我们做过完整复盘——已经证明即使是 OpenAI 也撑不起一条消费视频模型的规模化运营;并行跑两条是个奇怪的战略选择。
假说三:统一全模态模型(图像 + 视频 + 音频单次前向)
最激进的解读:Omni 是新 Gemini 自训模型家族的第一个成员,在单次前向中同时处理图像生成、视频生成和同步音频。这就是 HappyHorse 1.0 在 4 月以 15B 参数统一音视频模型登顶 Arena 时开创的架构。在这种假说下,Omni 同时替代当前的 Veo 管线(视频)和 Nano Banana Pro 栈(图像),用单一多模态生成器统一两个产品线。
支持证据:"Omni"这个名字本身就强烈暗示了多模态覆盖。UI 框架("我们新的视频模型,重混视频,在聊天里直接编辑")暗示单一产品界面跨多个模态。来自 HappyHorse 的统一架构竞争压力很急——Google 从 4 月开始就在 Arena 榜首位置上失守。(架构细节见我们的 HappyHorse 1.0 评测。)
反对证据:统一全模态模型技术上难度极高,Google 在向消费端推送新颖架构上一直比字节或阿里更保守。在一场公开主题演讲上同时替换两条生产管线是高风险选择。
赔率在哪里
业内观察者大致以 30/30/40 分布在三种假说上。基于 UI 框架和片段能力跳跃,最可信的读法是假说二与假说三的混合:一个新的 Gemini 自训模型,至少在视频和音频上做统一处理,而 Veo 在 Vertex AI 上继续给需要稳定性的企业客户用。再过六天我们就知道答案。
为什么这件事的意义超出 Google
Omni 之所以重要,不是因为 Google 又出了一个新视频模型——新视频模型每个月都在出。Omni 之所以重要,是因为如果假说三成立,它意味着什么。
AI 视频行业过去四个月一直在看统一全模态架构这条主线落地。Sora 2 在 84 天内崩盘,跑的是分管线架构。HappyHorse 1.0 用 15B 统一架构在 48 小时内冲上 Arena 第一。Seedance 2.0 通过双分支 Transformer 同时输出音视频。整个一季度技术重心都在向统一架构倾斜,而唯一没有响应的西方头部实验室就是 Google。
如果 Omni 是真正的统一模型——假说三——Google 就匹配上了中国头部厂商确立的架构方向。这有三个连锁影响:
- Veo 品牌整合或退役。一个分管线的 Veo 跟统一架构的 Omni 并存 12 个月以上没有道理。Vertex AI 上的企业客户会期待迁移路径。
- 中西架构差距合拢。"中国模型因为先做统一架构所以有结构性领先"这种叙述,在 Google 也上线了自己的统一模型之后会弱化。
- 模型层差异化继续压缩。如果前六的模型里有四个都用统一音视频架构,模型层进一步商品化,agent 层成为唯一有意义的差异化点。这是我们 2026 年中盘点 的核心论点,Omni 会延伸它。
如果 Omni 只是改名(假说一),以上大部分都不适用。但泄露片段让假说一成为三种里最不可能的。
I/O 上要盯的六个信号
5 月 19 日主题演讲开场后,下面这些信号告诉你哪种假说成立。单独看每一项都不算决定性,组合起来就能勾勒出完整画面。
信号一:Google 在演讲台上还提"Veo"吗?
如果 Veo 在面向消费者的 Gemini 段里被刻意淡化,那是 Veo 作为消费端品牌正在退役的证据。如果 Veo 还跟 Omni 一起被提及,两者并存(假说二)。如果两者都提但 Veo 只被定位给企业,那么迁移已经开始。
信号二:Omni 在同一次调用里生成音频吗?
一次 API 调用同时返回同步的视频 + 音频是统一全模态模型的技术签名(假说三)。两次独立调用——先视频再音频合成——是上一代架构模式。主题演讲的 demo 应该会展示清楚。
信号三:Omni 同时处理图像生成吗?
如果 Omni 仅被定位为新的视频模型,覆盖面就更窄。如果 Omni 把图像生成也吸收进去——替代 Gemini 聊天界面内的 Nano Banana Pro——这是更广义统一模态论的证据。盯紧主题演讲里任何图像生成 demo 是归在 "Omni" 名下还是仍然写着 Nano Banana / Imagen。
信号四:首发当天有 API 吗?
Veo 3.1 当年是主题演讲当天就上线了 Vertex AI。如果 Omni 在 5 月 19-20 当天就公开 API 与定价,它的定位就是即刻可用于生产。如果只放消费版、API"今年晚些时候"再说,Google 走的就是 Sora 2 的零售先行路线——我们已经看到这条路在规模上经济不成立。
信号五:定价结构如何?
当前公开顶级 API 定价基准大致是 $0.05/秒(HappyHorse 1.0)到 $0.50/秒(Veo 3.1)。如果 Omni 的 API 定价靠近 HappyHorse,Google 在打成本战;靠近 Veo 3.1,Google 在打质量战。选择会告诉你 Google 优先抢哪个市场。
信号六:Project Astra 怎么对接?
Google 从 2024 年起每届 I/O 都在演示 Project Astra——其实时多模态助手。如果 Astra 在 5 月 19-20 突然变成产品并且底层跑的是 Omni,这才是更大的"omni"论:不只是视频模型,而是横跨整个 Gemini 体验的实时多模态 AI 界面。
这对你的工作流意味着什么
主题演讲之前可以先想清楚的三件实务事。
如果你直接用 Gemini 做创作
暂时什么都不用改。如果 Omni 下周在消费端 Gemini 上线,它就是替代或升级现有的视频生成体验。"重混视频、在聊天里直接编辑"的描述意味着你已经熟悉的聊天驱动工作流,只不过底层模型更强。等正式公布、试用新能力之后再根据实际变化调你的提示词。
如果你在 Vertex AI 上做开发
密切关注信号一(Veo 品牌)和信号四(API 可用性)。如果 Veo 在消费端退役但在 Vertex AI 上继续给企业用,你现有的集成是安全的。如果 Omni 在 Vertex AI 上完全替代 Veo,你面前就有一次 API 迁移。无论哪种情况,把集成放在 agent 或编排层之后,模型替换就是配置变更,不是代码变更。
如果你跑的是多模型 agent 栈
这正是我们在近期文章里一直主张的状态。(见 六大转向 和 长视频瓶颈 两篇。)多模型 agent 把 Omni 当成路由表里的又一个生成器——和 Veo、Seedance、HappyHorse、可灵、Luma、Runway 并列。Agent 层才是真正有产能的问题所在:这条 60 秒视频里的某一镜,路由到哪个模型。Omni 公布只是给路由表加一项,不改变你跑的架构。
这也是我们把 Genra 的栈做成模型无关的原因:模型层一直在动,agent 层才会复利。
距离 I/O 六天,结论先放在这里
已知:Gemini 视频标签页内确实有一个叫 Omni 的真实模型,输出在物理和文字渲染上肉眼可见强于公开版 Veo 3.1,Google 把它框定为聊天驱动的工作流产品。未知:它究竟是改名、并行新模型,还是统一全模态系统。
最有用的单条预测是第三种。如果假说三成立,5 月 19 日西方与中国在架构上的差距就合拢,行业回到所有头部实验室都在跑统一音视频架构的多极竞争。如果假说三不成立,Google 仍然在 HappyHorse 划定的架构前沿之后——4 月之后的竞争格局不变。
不管哪种结果,实务结论一致:模型层一直在动,agent 层才是该被建设的地方。Omni 改变不了这一点。它要么强化它(在路由表里加一个商品化模型),要么不挪针(如果是改名)。那些已经把差异化挪到 agent 基础设施上的团队,5 月 19 日 Google 公布的任何东西对他们来说都是一次配置更新。仍把宝压在单一英雄模型上的团队,Q2 剩下的时间都会用来回炉重建。
主题演讲之后我们会更新这篇文章,把真正官宣的内容补进来。
常见问题
Gemini Omni 是什么?
Gemini Omni 是一个尚未公布的 AI 视频生成模型,通过 Google Gemini 界面内的两次泄露浮出水面——2026 年 5 月 2 日的 UI 文案,以及 5 月 11 日从 Gemini Pro 账号流出的生成片段。截至 5 月 13 日 Google 尚未正式承认 Omni。最可能的发布窗口是 2026 年 5 月 19-20 日 Google I/O。
Gemini Omni 会替代 Veo 吗?
未确认。有三种假说:Omni 是 Veo 3.1 的消费端改名;Omni 是一个独立的 Gemini 自训新模型,与 Veo 并存;Omni 是统一全模态模型,同时替代 Veo 和 Google 的图像栈。泄露片段展示的能力超过公开版 Veo 3.1,使得纯改名假说成为三种里最不可能的。
泄露的片段展示了什么?
最受关注的两段:一段海边餐厅吃意面(亮点是处理了物理强度高的食物动作,现有模型通常会崩),一段教授在黑板上推导三角函数证明(亮点是跨帧间渲染连贯的数学符号,AI 视频模型历来失败的项目)。这两个能力区都是视频模型行业公认的薄弱点。
什么时候才能知道 Omni 到底是什么?
2026 年 5 月 19-20 日 Google I/O。主题演讲最可能确认或否认 Omni 这个名字、是否替代 Veo、是否在视频之外覆盖音频和图像生成。盯紧六个具体信号:Veo 还有没有被提到、音频是不是和视频同一次调用生成、图像生成是否被纳入、当天有没有 API、定价结构如何、Project Astra 如何对接。
作为创作者,公告前我该做什么?
暂时什么都不要改。如果你用消费版 Gemini,等正式发布再试新能力。如果你在 Vertex AI 上,关注 API 迁移路径。如果你跑多模型 agent 栈,把 Omni 当成路由表里的又一个生成器——它不改变你跑的架构。
Omni 与 HappyHorse 1.0 比较如何?
HappyHorse 1.0 在 2026 年 4 月 7 日发布后 48 小时内冲上 Artificial Analysis Video Arena 第一,采用 15B 参数统一音视频架构。如果 Omni 也是统一全模态模型,它就是 Google 对那条架构方向的第一次回应。如果 Omni 是分管线模型(假说二)或改名(假说一),那么 Google 在 HappyHorse 划定的统一架构前沿之后继续落后。
关于作者
Chris Sherman 长期报道 AI 视频技术与创作生产流程。Google I/O 2026 主题演讲(5 月 19-20)期间,关注 @GenraAI 获取实时跟进。