I/O 2026 前夜：AI 视频赛道现在的 5 个真问题（不是 5 个新模型）

Google I/O 2026 不到 24 小时就开幕。整个互联网都在出 Veo 4 预测稿。所有人问的都是同一个问题：新模型的参数是什么？这是错的问题。真正在塑造 AI 视频赛道的 5 个问题，跟明天哪个模型赢，关系几乎为零。

今天是 2026 年 5 月 18 日傍晚。明天早上，Sundar Pichai 会走上舞台宣布下一代 Veo。每个 AI 视频创作者、营销人、分析师都在刷同一批 Twitter 时间线，等参数泄露。

反直觉的观点是：明天的发布大概率改变不了什么。不是因为它不强——它会很强。而是因为 AI 视频真正没解决的问题，早就越过"哪个模型输出最好"了。这些问题在上面一层，在"片段"和"成片"之间的鸿沟里。更强的 Veo 不会填上这条鸿沟。更强的 agent 才会。

下面是 5 个比明天 keynote 更重要的问题。读完，然后安心去看发布会。

问题 1：为什么跨镜头一致性还是会崩？

2026 年的每个 AI 视频模型都能做出一支漂亮的 8 秒片段。同样的 prompt 再跑一遍，你拿到的是另一个人、另一个产品、另一种品牌色、另一个背景。模型在两次生成之间没有记忆。

做一个一次性的电影感镜头，这没问题。但只要做点像样的视频——三个角度的产品演示、一支讲述者出现在第一和第四镜的广告、有固定讲师的课程模块——这就是全部问题所在。

模型层给出的答案是参考图条件化：上传三张角色照片，模型尽量匹配。成功率大概 70%。剩下 30% 就是真实生产时间真正花掉的地方。

Agent 层的答案不同：在整条镜头序列里给每个实体（人物、产品、环境）维护一组参考、自动重生成失败的镜头、在一致性关键的地方锁种子、给参考做版本管理让品牌资产在几个月的内容里保持稳定。模型改进有帮助。编排才让它真的能交付。

明天解决不了的事：Veo 4 可能上原生 ID-embedding。会比今天好。但不会让一个营销人每月跨 8 个 SKU 做 40 条视频时还能不操心一致性。

问题 2：为什么"片段"还在被当成"成片"？

看任何模型 demo 你都看到同样的东西：一个单镜头、灯光完美、没有剪辑、没有字幕、没有配乐、没有平台适配的画幅、没有 CTA。是片段。不是任何人会真发出去的视频。

一支真实视频——发 YouTube 频道、发 TikTok 信息流、发广告账户、放产品页的那种——有脚本、分镜、配音、B-roll、目标语言字幕、卡音乐节拍的剪辑、前 3 秒的钩子、匹配目标平台的输出格式。模型解决 1 个。剩下 10 个是别人的手动问题。

现在的默认解决方案是把 5 个工具拼起来：脚本写作、视频模型、配音生成、剪辑工具、字幕工具。每个工具有自己的 UI、自己的定价、自己的故障模式。结果就是任何认真做质量的人，AI 视频还是每条成片要几小时。

Agent 层的答案是把整条流水线作为一个系统拥有。自然语言 brief 进去，成片出来。Genra 跑在 Veo 和 Seedance 上，处理中间每一步。这不是工作流改进。这是另一个产品品类。

明天解决不了的事：Veo 4 会产出更好的片段。片段到成片之间的鸿沟原地不动。

问题 3：11 天后，AI 视频的版权会怎么走？

2026 年 5 月 29 日，MiniMax 版权案进入庭审阶段。这是第一桩进入实质裁决阶段的重大 AI 视频版权案，结果会成为整个行业未来几年都要遵守的先例。

法庭被问到的问题包括：模型能不能在未授权的版权素材上训练？当 AI 生成的片段跟某个有版权的场景"实质性相似"时，谁担责——模型提供方、平台、还是终端用户？当模型看过几百万条训练视频后，"实质性相似"到底是什么意思？

这比明天的 keynote 更重要，理由只有一个：Veo 4 发布是一个产品。版权裁决是一个塑造所有产品的约束条件。如果判决朝一边走，所有西方 AI 视频服务商现在默认的安全港假设要重排。如果朝另一边走，训练数据的护城河会变成真正的可防御资产。

聪明的创作者和品牌团队没有在等判决。他们把商用 AI 视频当作需要可防御证据链的东西在做——用了哪些模型、上传了哪些参考、是否获得了授权。Genra 的流水线默认记录这些，因为我们预期监管底线还会持续移动。

明天解决不了的事：Google 不会在 I/O 上提 MiniMax 案。不管 Veo 4 上什么参数，所有人脚下的法律地基都在持续移动。

问题 4：成片之后，AI 视频到底发去哪？

你生成了一支视频。然后呢？它要发 YouTube 是 16:9、TikTok 是 9:16、Instagram Reels 要把字幕烧进去给静音自动播放用、落地页要嵌入 MP4、付费广告平台前 3 秒要重剪成钩子变体、邮件列表要做缩略图链接到托管播放器。

每个目的地都有自己的画幅、时长上限、文件大小限制、字幕格式、可访问性要求、数据集成方式。模型产出一份渲染输出。分发工作是一个独立的、更大的、几乎纯手工的项目。

这是 I/O 上没人 demo 的部分。也是决定视频赚钱还是躺在文件夹里的部分。

Agent 层的答案是把分发作为一等输出。同一个 brief，多种平台原生剪辑，并行生成，针对每个平台的真实行为优化——TikTok 算法奖励的钩子结构跟 YouTube Shorts 不同，Instagram Reels 偏好的首帧完全是另一回事。

明天解决不了的事：更强的生成不解决分发。平台还是分裂的。适配每个平台的工作量不变。Agent 层要么自己扛，要么用户扛。

问题 5：AI 视频什么时候不再是成本中心？

Google 4 月把 Veo 3.1 免费了。只要你接受水印和 8 秒上限，单片段生成成本崩到零。免费模型遍地都是。那为什么大多数公司的 AI 视频预算还在涨？

因为模型成本从来不是瓶颈。瓶颈是模型周围的人力：调 prompt、手动拼接、看护一致性、剪适配各平台、跟干系人来回迭代、品牌审核。免费模型把本来就是零头的那项成本压到零，真正的成本结构纹丝不动。

把 AI 视频从"实验"做成"基础设施"的公司，是把 agent 层当作成本单元，不是把模型当作成本单元。他们衡量的是"每支交付成片的成本"，不是"每支生成片段的成本"。这个数字指向的结论跟"免费模型万岁"的叙事完全不同。

对大多数团队，AI 视频从成本中心走向利润中心的路径长这样：用一个工具拥有从 brief 到成片的整条流水线、消除五工具拼接的税、衡量每人每周成片产出、让模型层在底下商品化。模型成本会归零。Agent 层的成本才决定单位经济。

明天解决不了的事：就算 Veo 4 发布就免费，你下季度的 AI 视频预算大概率还是涨。涨的不是模型用量。是模型周围的一切。

更大的点

明天的 keynote 会很好看。原生 4K 要来了。多场景叙事要来了。生成更快要来了。Google 发布的每一项有意义的提升，我们都会接入——因为更好的模型确实让 Genra 上每支视频都变好一点。

但上面这 5 个问题，不靠更好的模型解决。要靠更好的 agent、更成熟的法律框架、以及一个不再把 demo 当生产的行业。

明天看完 keynote 回来问问：里面有没有真正在一致性、片段到成片、版权、分发、真实单位经济这 5 件事上推动针？我们预测：第 1 件事推动一点，其余几乎零。

模型层是头条。Agent 层是真活儿。

关键要点

Google I/O 2026 会被 Veo 4 预测和发布主导。模型只是一整个高栈里的一层。
跨镜头一致性主要是编排问题，不是模型问题。原生 ID-embedding 有帮助；但不会让每月做 40 条片段的人不操心。
片段不是成片。脚本、配音、B-roll、字幕、平台适配剪辑、分发都是模型不碰的独立问题。
5 月 29 日 MiniMax 庭审对 AI 视频监管的影响超过任何 I/O 发布。运营方现在就该开始记录证据链，不是以后。
YouTube、TikTok、Instagram、广告、邮件的分发碎片化本身就是生产税。Agent 层要么扛，要么用户扛。
免费模型把 AI 视频生产成本里最便宜的那项压到零。真实单位经济由模型周围的一切决定——agent 层。
Genra 跑在 Veo 和 Seedance 上，把整条流水线作为一个 agent 处理。明天的模型提升会在后端悄悄并入。5 个真问题原地不动。

常见问题

AI 视频里的"agent 层"是什么？

Agent 层是把 brief 变成可分发成片的系统。它处理脚本、分镜、模型选择、生成、一致性、配音、剪辑、字幕、平台适配输出。模型层产出片段。Agent 层交付成片。

Veo 4 会解决 AI 视频一致性问题吗？

部分解决。如果 Veo 4 像预期那样上原生 ID-embedding，单镜头一致性会变好。但跨镜头、跨拍摄、跨品牌、在持续内容生产线上保持稳定的一致性，仍然需要编排——参考管理、重生成逻辑、种子锁定、版本控制。模型有帮助。真活儿是 agent 干的。

MiniMax 版权案是什么？为什么重要？

MiniMax 案是第一桩进入实质庭审阶段的重大 AI 视频版权案，定于 2026 年 5 月 29 日开庭。判决会影响整个行业对训练数据、模型输出责任、实质性相似的解读方式。结果会塑造西方和亚洲服务商都要遵守的监管框架。

Veo 3.1 都免费了，为什么 AI 视频生产没免费？

因为模型本来就不是贵的部分。贵的是模型周围的人力——调 prompt、手动拼接、一致性 QA、平台适配剪辑、干系人来回。免费模型把最便宜的那项压到零。真实生产成本在 agent 层。

Genra 用的是哪些模型？

Veo 和 Seedance。Agent 根据每个镜头的需求自己挑模型。用户描述要什么，agent 处理模型选择和后面整条流水线。

Google I/O 2026 是什么时候？

2026 年 5 月 19–20 日。开幕 keynote 是 5 月 19 日美东 1:00 PM / 美西 10:00 AM，io.google 免费直播。Veo 和 Gemini 的发布通常在前 90 分钟。

品牌方该怎么应对 AI 视频版权的不确定性？

为每支视频记录证据链：每个片段是哪个模型生成的、上传了哪些参考素材、参考素材是否有授权或同意。把审计轨迹当成可交付物，不是事后补丁。未来两年法律底线会持续移动。

为什么平台分发还要花这么多手工活？

因为每个平台的画幅、时长上限、字幕格式、钩子模式、算法偏好都不同。一份渲染输出几乎不可能在所有平台都跑得好。要么 agent 从同一个 brief 生成平台原生变体，要么有人手动重剪。

关于作者
Chris Sherman 关注 AI 视频技术、agent 架构和创意生产的商业化。关注 @GenraAI 获取 Google I/O 2026（5 月 19–20 日）和 MiniMax 庭审（5 月 29 日）的实时跟进。