I/O 2026 前夜:AI 视频赛道现在的 5 个真问题(不是 5 个新模型)

· Chris Sherman

Google I/O 2026 不到 24 小时就开幕。整个互联网都在出 Veo 4 预测稿。所有人问的都是同一个问题:新模型的参数是什么?这是错的问题。真正在塑造 AI 视频赛道的 5 个问题,跟明天哪个模型赢,关系几乎为零。

今天是 2026 年 5 月 18 日傍晚。明天早上,Sundar Pichai 会走上舞台宣布下一代 Veo。每个 AI 视频创作者、营销人、分析师都在刷同一批 Twitter 时间线,等参数泄露。

反直觉的观点是:明天的发布大概率改变不了什么。不是因为它不强——它会很强。而是因为 AI 视频真正没解决的问题,早就越过"哪个模型输出最好"了。这些问题在上面一层,在"片段"和"成片"之间的鸿沟里。更强的 Veo 不会填上这条鸿沟。更强的 agent 才会。

下面是 5 个比明天 keynote 更重要的问题。读完,然后安心去看发布会。

问题 1:为什么跨镜头一致性还是会崩?

2026 年的每个 AI 视频模型都能做出一支漂亮的 8 秒片段。同样的 prompt 再跑一遍,你拿到的是另一个人、另一个产品、另一种品牌色、另一个背景。模型在两次生成之间没有记忆。

做一个一次性的电影感镜头,这没问题。但只要做点像样的视频——三个角度的产品演示、一支讲述者出现在第一和第四镜的广告、有固定讲师的课程模块——这就是全部问题所在。

模型层给出的答案是参考图条件化:上传三张角色照片,模型尽量匹配。成功率大概 70%。剩下 30% 就是真实生产时间真正花掉的地方。

Agent 层的答案不同:在整条镜头序列里给每个实体(人物、产品、环境)维护一组参考、自动重生成失败的镜头、在一致性关键的地方锁种子、给参考做版本管理让品牌资产在几个月的内容里保持稳定。模型改进有帮助。编排才让它真的能交付。

明天解决不了的事:Veo 4 可能上原生 ID-embedding。会比今天好。但不会让一个营销人每月跨 8 个 SKU 做 40 条视频时还能不操心一致性。

问题 2:为什么"片段"还在被当成"成片"?

看任何模型 demo 你都看到同样的东西:一个单镜头、灯光完美、没有剪辑、没有字幕、没有配乐、没有平台适配的画幅、没有 CTA。是片段。不是任何人会真发出去的视频。

一支真实视频——发 YouTube 频道、发 TikTok 信息流、发广告账户、放产品页的那种——有脚本、分镜、配音、B-roll、目标语言字幕、卡音乐节拍的剪辑、前 3 秒的钩子、匹配目标平台的输出格式。模型解决 1 个。剩下 10 个是别人的手动问题。

现在的默认解决方案是把 5 个工具拼起来:脚本写作、视频模型、配音生成、剪辑工具、字幕工具。每个工具有自己的 UI、自己的定价、自己的故障模式。结果就是任何认真做质量的人,AI 视频还是每条成片要几小时。

Agent 层的答案是把整条流水线作为一个系统拥有。自然语言 brief 进去,成片出来。Genra 跑在 Veo 和 Seedance 上,处理中间每一步。这不是工作流改进。这是另一个产品品类。

明天解决不了的事:Veo 4 会产出更好的片段。片段到成片之间的鸿沟原地不动。

2026 年 5 月 29 日,MiniMax 版权案进入庭审阶段。这是第一桩进入实质裁决阶段的重大 AI 视频版权案,结果会成为整个行业未来几年都要遵守的先例。

法庭被问到的问题包括:模型能不能在未授权的版权素材上训练?当 AI 生成的片段跟某个有版权的场景"实质性相似"时,谁担责——模型提供方、平台、还是终端用户?当模型看过几百万条训练视频后,"实质性相似"到底是什么意思?

这比明天的 keynote 更重要,理由只有一个:Veo 4 发布是一个产品。版权裁决是一个塑造所有产品的约束条件。如果判决朝一边走,所有西方 AI 视频服务商现在默认的安全港假设要重排。如果朝另一边走,训练数据的护城河会变成真正的可防御资产。

聪明的创作者和品牌团队没有在等判决。他们把商用 AI 视频当作需要可防御证据链的东西在做——用了哪些模型、上传了哪些参考、是否获得了授权。Genra 的流水线默认记录这些,因为我们预期监管底线还会持续移动。

明天解决不了的事:Google 不会在 I/O 上提 MiniMax 案。不管 Veo 4 上什么参数,所有人脚下的法律地基都在持续移动。

问题 4:成片之后,AI 视频到底发去哪?

你生成了一支视频。然后呢?它要发 YouTube 是 16:9、TikTok 是 9:16、Instagram Reels 要把字幕烧进去给静音自动播放用、落地页要嵌入 MP4、付费广告平台前 3 秒要重剪成钩子变体、邮件列表要做缩略图链接到托管播放器。

每个目的地都有自己的画幅、时长上限、文件大小限制、字幕格式、可访问性要求、数据集成方式。模型产出一份渲染输出。分发工作是一个独立的、更大的、几乎纯手工的项目。

这是 I/O 上没人 demo 的部分。也是决定视频赚钱还是躺在文件夹里的部分。

Agent 层的答案是把分发作为一等输出。同一个 brief,多种平台原生剪辑,并行生成,针对每个平台的真实行为优化——TikTok 算法奖励的钩子结构跟 YouTube Shorts 不同,Instagram Reels 偏好的首帧完全是另一回事。

明天解决不了的事:更强的生成不解决分发。平台还是分裂的。适配每个平台的工作量不变。Agent 层要么自己扛,要么用户扛。

问题 5:AI 视频什么时候不再是成本中心?

Google 4 月把 Veo 3.1 免费了。只要你接受水印和 8 秒上限,单片段生成成本崩到零。免费模型遍地都是。那为什么大多数公司的 AI 视频预算还在涨?

因为模型成本从来不是瓶颈。瓶颈是模型周围的人力:调 prompt、手动拼接、看护一致性、剪适配各平台、跟干系人来回迭代、品牌审核。免费模型把本来就是零头的那项成本压到零,真正的成本结构纹丝不动。

把 AI 视频从"实验"做成"基础设施"的公司,是把 agent 层当作成本单元,不是把模型当作成本单元。他们衡量的是"每支交付成片的成本",不是"每支生成片段的成本"。这个数字指向的结论跟"免费模型万岁"的叙事完全不同。

对大多数团队,AI 视频从成本中心走向利润中心的路径长这样:用一个工具拥有从 brief 到成片的整条流水线、消除五工具拼接的税、衡量每人每周成片产出、让模型层在底下商品化。模型成本会归零。Agent 层的成本才决定单位经济。

明天解决不了的事:就算 Veo 4 发布就免费,你下季度的 AI 视频预算大概率还是涨。涨的不是模型用量。是模型周围的一切。

更大的点

明天的 keynote 会很好看。原生 4K 要来了。多场景叙事要来了。生成更快要来了。Google 发布的每一项有意义的提升,我们都会接入——因为更好的模型确实让 Genra 上每支视频都变好一点。

但上面这 5 个问题,不靠更好的模型解决。要靠更好的 agent、更成熟的法律框架、以及一个不再把 demo 当生产的行业。

明天看完 keynote 回来问问:里面有没有真正在一致性、片段到成片、版权、分发、真实单位经济这 5 件事上推动针?我们预测:第 1 件事推动一点,其余几乎零。

模型层是头条。Agent 层是真活儿。

关键要点

  • Google I/O 2026 会被 Veo 4 预测和发布主导。模型只是一整个高栈里的一层。
  • 跨镜头一致性主要是编排问题,不是模型问题。原生 ID-embedding 有帮助;但不会让每月做 40 条片段的人不操心。
  • 片段不是成片。脚本、配音、B-roll、字幕、平台适配剪辑、分发都是模型不碰的独立问题。
  • 5 月 29 日 MiniMax 庭审对 AI 视频监管的影响超过任何 I/O 发布。运营方现在就该开始记录证据链,不是以后。
  • YouTube、TikTok、Instagram、广告、邮件的分发碎片化本身就是生产税。Agent 层要么扛,要么用户扛。
  • 免费模型把 AI 视频生产成本里最便宜的那项压到零。真实单位经济由模型周围的一切决定——agent 层。
  • Genra 跑在 Veo 和 Seedance 上,把整条流水线作为一个 agent 处理。明天的模型提升会在后端悄悄并入。5 个真问题原地不动。

常见问题

AI 视频里的"agent 层"是什么?

Agent 层是把 brief 变成可分发成片的系统。它处理脚本、分镜、模型选择、生成、一致性、配音、剪辑、字幕、平台适配输出。模型层产出片段。Agent 层交付成片。

Veo 4 会解决 AI 视频一致性问题吗?

部分解决。如果 Veo 4 像预期那样上原生 ID-embedding,单镜头一致性会变好。但跨镜头、跨拍摄、跨品牌、在持续内容生产线上保持稳定的一致性,仍然需要编排——参考管理、重生成逻辑、种子锁定、版本控制。模型有帮助。真活儿是 agent 干的。

MiniMax 版权案是什么?为什么重要?

MiniMax 案是第一桩进入实质庭审阶段的重大 AI 视频版权案,定于 2026 年 5 月 29 日开庭。判决会影响整个行业对训练数据、模型输出责任、实质性相似的解读方式。结果会塑造西方和亚洲服务商都要遵守的监管框架。

Veo 3.1 都免费了,为什么 AI 视频生产没免费?

因为模型本来就不是贵的部分。贵的是模型周围的人力——调 prompt、手动拼接、一致性 QA、平台适配剪辑、干系人来回。免费模型把最便宜的那项压到零。真实生产成本在 agent 层。

Genra 用的是哪些模型?

Veo 和 Seedance。Agent 根据每个镜头的需求自己挑模型。用户描述要什么,agent 处理模型选择和后面整条流水线。

Google I/O 2026 是什么时候?

2026 年 5 月 19–20 日。开幕 keynote 是 5 月 19 日美东 1:00 PM / 美西 10:00 AM,io.google 免费直播。Veo 和 Gemini 的发布通常在前 90 分钟。

品牌方该怎么应对 AI 视频版权的不确定性?

为每支视频记录证据链:每个片段是哪个模型生成的、上传了哪些参考素材、参考素材是否有授权或同意。把审计轨迹当成可交付物,不是事后补丁。未来两年法律底线会持续移动。

为什么平台分发还要花这么多手工活?

因为每个平台的画幅、时长上限、字幕格式、钩子模式、算法偏好都不同。一份渲染输出几乎不可能在所有平台都跑得好。要么 agent 从同一个 brief 生成平台原生变体,要么有人手动重剪。


关于作者
Chris Sherman 关注 AI 视频技术、agent 架构和创意生产的商业化。关注 @GenraAI 获取 Google I/O 2026(5 月 19–20 日)和 MiniMax 庭审(5 月 29 日)的实时跟进。