已经发生的六件事：2026 年中 AI 视频盘点

不是预测。是清单。已经成为行业默认运转方式的六件事。

趁你还在盯着模型，行业已经重组完了

如果你 12 月 31 日睡着，本周才醒过来，2025 年底那个版本的 AI 视频你会认不出来。Sora 2 的 logo 已经从 OpenAI 的产品页消失。Artificial Analysis Video Arena 上被引用最多的那个模型，是一个八周前还不存在、由你没听过的团队匿名提交的产品。创作者论坛里压过其他话题的问题，不再是"哪个模型最好"，而是"我应该用哪只 agent"。角色一致性——过去两年里把每一个长视频项目都卡死的瓶颈——不再是任何人会拿出来宣传的功能。一部 10 分钟的 AI 纪录片，年初还是登月级 demo，现在是一个独立创作者一个工作周就能交出的活儿。

五个月。六个变化。下面这些都不是预测。是清单：到 2026 年 5 月，已经成为整个行业默认运转方式的事实。每一条都讲清楚——之前是什么、变了什么、背后的具体事件和数字、对你接下来要做的事意味着什么。

变化一 — Sora 2 崩塌，重排了顶层格局

到目前为止 2026 年最大的单一事件，有具体日期：2025 年 12 月 31 日（Sora 2 上线），2026 年 1 月 10 日（上线 10 天后免费档关停），2026 年 3 月 24 日（关停宣布），2026 年 4 月 26 日（消费端 App 与网页关停），2026 年 9 月 24 日（API 终止）。作为消费产品活了 84 天。AI 视频史上炒得最猛的发布，就这样在一个财季里走完上线、达峰、关停。

关键数据放在一起看，能解释为什么塌得这么快、为什么把这么多资本和信誉一起拖下水：

指标	Sora 2	行业基准
峰值日推理成本	约 $1500 万	同等流量下要低一个数量级
Sora 全周期可归因总收入	约 $210 万	—
成本/收入比	约 600:1	可持续 AI 工具 < 5:1
1080p 解锁价	$200/月（仅 Pro 档）	$5–30/月（Kling、Runway、Seedance）
标准档分辨率	480p	720p–1080p
免费档时长	10 天后取消	持续提供（限量）

迪士尼合作的崩盘把财务上的伤口又撕开一层。OpenAI 与迪士尼签了一份大约 10 亿美元的 IP 合作，覆盖迪士尼动画、漫威、皮克斯、星球大战旗下 200 多个角色——AI 视频产品历史上排得上号的最大护城河。迪士尼据报道是在公开宣布前不到一个小时才被通知。合作直接终止。在那之后几周，三位与 Sora 消费业务相关的 OpenAI 高管离职。（完整复盘见我们对 Sora 关停的拆解。）

下游效应没有按多数观察者预测的方向走。Sora 2 用户没有迁到一个替代品。他们按"活儿"分开了：物理重的活儿迁到 Veo 3.1，cameo 式的真人插入迁到 Kling 3，长分镜序列迁到 Seedance 2，写实人物迁到 Luma Ray3——具体迁徙路径见"Sora 用户都去哪了"那篇报告。"一个模型解决一切"的话术随着 Sora 2 一起塌了，没有被重建。

这件事改变了什么。榜单变成"按活儿分"了。2026 年 5 月没有 Q1 那种"最好的模型"答案。该问的是：你要拍的这个镜头，最适合哪个模型——而这个问题，越来越多地是 agent 在回答，不是创作者。靠单一英雄模型撑起整套创作栈的时代结束了，而且不太可能回来：杀死 Sora 2 的算力经济（每 1 美元收入烧掉 600 美元算力）不是 OpenAI 独有的，它适用于任何想做"独大"模型方的玩家。

变化二 — 榜单顶部换主了，换的是中国造

Sora 2 退场的另一面，是中国出的模型不仅补上空缺，而且把榜单顶部抢了。最清晰的例证是悦马 1.0（HappyHorse 1.0）——2026 年到目前为止最具结构意义的一次模型上线。

2026 年 4 月 7 日，一个匿名模型出现在 Artificial Analysis Video Arena 排行榜上。没有新闻稿、没有团队 logo、没有公开权重。48 小时内它在 Text-to-Video 上拿到 Elo 1389——比之前的领跑者 Seedance 2.0 高 115 分，在 Image-to-Video 上拿到 Elo 1416，两项均第一。4 月 9–10 日，X 账号 @AthAI_Official 揭晓：模型是阿里巴巴 ATH AI Innovation Unit 出品，主导者是张迪——前快手 VP，Kling AI 的架构师。一个中国领跑者的架构师，悄悄叛逃，在另一家中国巨头里把对手重做了一遍。（完整技术分析见我们的悦马 1.0 拆解。）

悦马是头条，但不是孤例。截至 5 月中，按赛道列出的顶部格局：

赛道	领跑者（2026 年 5 月）	出处	原因
风格化 / 动画 / anime 邻近	Kling 3.0	快手（中国）	原生 4K/60fps，顶级模型里最大方的免费档
参考素材驱动的品牌片与商品视频	Seedance 2.0	字节跳动（中国）	多模态参考体系，通过剪映分发到约 5 亿+ 用户
中文短剧与 CN 电商	悦马 1.0	阿里巴巴（中国）	原生中文对口型，顶级档里最便宜的 API
对白重、广播级收尾	Veo 3.1	谷歌（美国）	48 kHz 原生音频，专业 color science，Extend
写实人物 / talking head	Luma Ray3	Luma（美国）	皮肤纹理、眼神表演、微表情
本地 / on-prem / NDA 工作	LTX-2	Lightricks（以色列）	第一个能在单张高端消费级显卡上稳定跑的顶级模型

六个领跑者里有三个是中国造的。十八个月前，这个配置不存在。这个模式不是民族主义叙事——是因为产生这些模型的人才与资本流向稳定下来了：张迪式的架构师在快手、字节、阿里之间流动现在很常见，光字节的剪映分发渠道就是西方任何 AI 视频创业公司都搬不动的护城河。

这件事改变了什么。模型层不再以西方为默认。2026 年搭生产栈的独立创作者、代理商、片厂，必须把中国模型和美国模型放在同一张评估表上看——不是出于多元，是出于能力和成本的现实需要。Q1 就开始这么干的团队，已经在成本上、以及在西方模型不擅长的能力（中文对口型、anime 邻近风格、单次 $0.5 以下的生成）上拿到了实打实的领先。

变化三 — 模型层商品化了

变化二的姊妹篇，是"最好"和"够用"之间的差距已经收窄。到 2026 年 5 月，前六名 AI 视频模型在多数用例上的单段产出大致可比。Arena 榜上第 1 名和第 6 名之间的 Elo 差距，落在了两年前"前沿模型"和"二线模型"之间的那条裂缝里。当然还有真实的赛道差异——前面那张表已经列了——但差距是赛道差，不是绝对差。

价格数据从另一个角度讲同一件事。2026 年 5 月，主流模型生成一段 5 秒、1080p 视频的成本：

模型	单次生成成本（5 秒，1080p）	入门档
Kling 3.0	约 $0.20–0.30	$5/月
悦马 1.0	约 $0.25	仅 API，顶级档里最低
Seedance 2.0	约 $0.40–0.60	包含在剪映付费档里
Veo 3.1	约 $0.60–0.80	跟 Vertex AI / Google AI Studio 计费绑定
Luma Ray3	约 $0.80–1.20	$10/月入门，写实人物溢价
Sora 2（已下线）	约 $4–8	$200/月 Pro 才能 1080p

Sora 2 这一行故意留着。Sora 2 与其余玩家之间 10–20 倍的成本差距，不是 OpenAI 质量领先的特征——是其架构选择不具备商业生存能力的特征。Sora 2 走了，剩下的玩家成本带很窄，价格在收敛。一支按月度预算工作的团队，现在用任何一个顶级模型，能产出大致相同体量、大致相同质量的视频。

2026 是"能力收敛"从被预测变成"看一眼 Arena 榜单和价格页就能读出来"的那一年。同一个 prompt 让 Veo 3.1 生一段、Kling 3 生一段，区分两段的主要靠风格偏好，而不是质量。

这件事改变了什么。价值在向上游转移。如果每个人都能用上能力收敛、价格收敛的生成器，区分点就变成"你怎么编排它们"——哪个镜头路由到哪个模型、身份怎么在它们之间保持、音频弧怎么规划、组装时接缝怎么消失。这一层叫编排，是下一条变化，也是六条里最大的那条。

变化四 — Prompt engineering 死了，agent 层取而代之

"Prompt engineering"在 2024 年每一份招聘 JD 里都写着，2025 年又是大多数 AI 候选人简历上的特色技能。到 2026 年 5 月，这个词读起来已经像 2020 年简历上写"HTML 工程师"一样过时。它描述过的技能是真的，但岗位已经搬走了。

替代品是 agent。在 2026 年，创作者用大白话把意图告诉视频 agent。Agent 把 brief 拆成节拍，把每个节拍按前面那张赛道表路由到最合适的底层模型，生成锁定的角色参考并在每一镜里复用，把旁白和音乐当成连续弧线整体规划（而不是按段做），组装结果，按目标平台导出。创作者停留在创作指导这一层；agent 处理执行。"写一个完美 prompt"的工作流——定义了 2023–2025 年——已经被所有认真追求产能的团队停用。

结构性原因很简单：有了变化三里六个收敛的商品化模型，人写出来的 prompt 跑不过一个知道哪一镜是对白、哪一镜是风格化、哪一镜是参考重的 agent。一个 10 分钟的成片要做 60+ 次生成，把那套路由活儿手动跑一遍的认知负担，正是杀死多工具拼接工作流的那把刀。（工程细节见我们的长视频实战指南，里面把"agent 能吸收哪些 prompt 解决不了的问题"逐一拆开了。）

就业市场信号是具体的。"Prompt engineer"的职位发布量在 2024 年中达到峰值，自 2025 年 Q4 起持续下降。"AI workflow operator"、"AI production lead"、"AI agent operator"——明确描述 agent 级操作的岗位——在同期快速增长。技能定位在从"巧措辞"挪到"系统编排"。

这件事改变了什么。制作速度和质量同时跳了一档，跳的还是同一根轴——编排。2026 年中，产出最被观看的 AI 视频的那批创作者，未必是 prompt 写得最好的——而是用了最好那只 agent 的。在 2026 年中按 prompt 技能招人的团队，是在为一个体量已经不在了的岗位招聘。

变化五 — 角色一致性不再是瓶颈

2024 和 2025 年大部分时间里，把长视频项目搞崩的那一个抱怨是"我没法让主角的脸在不同镜头之间保持一致"。这个现象在创作者圈子里有个名字——"漂移"——还有一条民间律：到第三分钟，你的主角已经是另一个人了。纪录片栽在这上。竖屏短剧栽在这上。整个长视频品类被它卡死。

到 2026 年 5 月，漂移已经不是抱怨了。身份持续——跨集、跨拍摄日、跨模型边界——已经成了任何 agent 驱动管线的入门要求。一个锁定的参考可以在 80 集竖屏短剧里复用、在一部纪录片的 60 次生成里复用、在跨数月的品牌战役里复用，肉眼看不出退化。

解决这件事的技术机制不在某一家模型上。模型实验室因此得益（它们可以不再死磕"在 8 秒一段内保持持续"），但真正合上这道缝的是模型之上的 agent 层。Agent 拿着一个 identity token，把它在不同生成之间带过去，在底层模型之间切换时不丢这个 token，并在每次输出后重新校验是否漂移。底层是 Veo、Seedance、Kling 还是悦马，都没有关系。

这件事改变了"现在能做什么"：

题材	2026 之前	2026 年中
80 集竖屏短剧	真人拍摄 $150K–$300K；AI 尝试到第 10 集就肉眼可见崩了	独立团队，约 6 周，低五位数美元，身份在 80 集里都稳
10 分钟纪录片	必须有档案 + 采访作锚才能跑通	独立创作者，3–5 个工作日，身份在 60+ 次生成里稳
跨周品牌战役	需要相互对应的真人拍摄来保持角色	Agent 在数周生成中把品牌锁定的 AI 角色保持住

这件事改变了什么。长视频变得可行了。没有角色持续，AI 视频在结构上是一种短视频媒介——只能做 60 秒片段、孤立场景。有了它，整个长视频品类对独立团队开放了。变化六里讲的那次成本崩塌，绝大部分是这一条单独技术解锁的下游效应。

变化六 — 制作成本砍了一个数量级

大家最常引用竖屏短剧的数字，因为它公开且戏剧性强：真人拍摄一部剧 $150K–$300K 的预算，被 AI 管线替换为同等 70–100 集时长 低五位数美元 的成本。同样的转变，没那么响地，也发生在讲解视频、品牌广告、talking head 内容、动画短片上。过去主导每一个视频项目预算的那一行，对 AI 主导的管线来说，现在是总开支里的个位数百分点。

把不同题材上的成本变化数字摊开看：

题材	2024 真人拍摄预算	2026 AI 管线预算	降幅
80 集竖屏短剧	$150K–$300K	$10K–$25K	约 10–15 倍
10 分钟讲解视频	$8K–$30K	$300–$1,500	约 20 倍
30 秒品牌广告	$30K–$200K+	$1K–$5K	约 20–40 倍
5 分钟动画短片	$20K–$80K（动画工作室）	$500–$2,500	约 30 倍

有一条关键限定必须摆在桌面上，因为它决定了这次成本崩塌能不能复合成创作者经济故事：付费拉新成本没有下降。Meta 和 TikTok 的广告 CPM 同比基本持平。一部 AI 制作的视频能不能找到观众的卡死约束，仍然是它背后的投流——竖屏短剧要打中爆款，单部投流仍在 $200K–$1M 区间。制作那一行掉了 10–40 倍；分发那一行没掉。（独立团队跑 ReelShort/DramaBox 模式时这件事怎么落地，我们在ReelShort playbook 里拆开过。）

命中率的算法跟着变了。2024 年，独立团队要跑一部真人拍摄的竖屏短剧、并且活到能再跑一次的概率是合理的，差不多需要 200 万美元的工作资金（一次 $150K 制作 + 投流；一次失败基本就结构性致命）。2026 年，同一支独立团队在差不多的总预算下，一年能上 8–12 次尝试，因为单次成本掉了 10–15 倍。爆款驱动的品类奖励"出手次数"。能玩这局游戏的人是谁——这个数学题悄悄重做了一遍，但完整地重做了。

这件事改变了什么。"谁能尝试一次制作"的经济学被重排了。过去连一次真人拍摄都付不起的独立团队，现在能做一组并发的尝试。靠旧的固定成本护城河得益的片厂失去了那条护城河。"资本在行业顶层集中"（2010 年代流媒体的玩法）正在被"资本在边缘碎片化"取代。

这六个变化合起来意味着什么

放到一起读，这不是六个独立的故事。是同一个故事从六个角度讲：AI 视频的重心已经从模型上挪到模型之上的那一层编排上。顺序是有因果的：

Sora 2 崩了（变化一）——把"一个模型解决一切"那条最清晰的论点从台面上拿走。
中国模型抢占顶层赛道（变化二）——把"单一领跑"换成"多极"。
模型层商品化（变化三）——把"最好"和"够用"之间的差距收进了一个不影响创作者输出的窄带。
Prompt engineering 死、agent 层崛起（变化四）——因为面对多极模型层，没有人能在路由速度上跑过 agent。
角色一致性不再是瓶颈（变化五）——因为 agent 层把 identity token 在模型之间带过去，解决了任何单一模型解不了的事。
制作成本砍了一个数量级（变化六）——因为便宜的商品化模型加上能跑的 agent，复合下来生成的"分钟成本结构"，是任何真人拍摄工作流都赶不上的。

2026 年要建创意团队，落到操作上的结论是："我们能用 Veo 和 Kling 和 Seedance"已经不是一个有意义的能力声明。每支队伍都能用。把每月稳出 10 支可用视频的团队，跟每月只能出 1 支的团队区分开的，是 brief 和模型之间那一层 agent 基础设施。

这对 2026 年下半年意味着什么

从这六个变化里出来的三个方向调整。每一个都替换掉一件 2025 年还能跑、2026 年上半年某一刻起停止生效的旧打法。

1. 不要再排模型，开始路由模型

如果你的团队还在做内部评测来挑"最适合我们栈的那个模型"，你正在花 2025 年会奖励、2026 年已经停止奖励的精力。Arena 榜单有信息量，但真正该问的是：哪一组模型组合，由 agent 路由，匹配你在对白、参考、风格化、语言上的生产需要。一个多模型 agent 栈，现在在成本、速度、质量上同时打败一个单模型栈。"我们标准化用 Veo"、"我们标准化用 Kling"——12 个月前还能跑的论点，现在已经没有立足点了。

2. 招创作判断力，不招 prompt 技能

产能上的瓶颈不再是"有没有人能写好 prompt"——而是"有没有人对要做什么有清晰的视角"。把 prompt engineering 当作招聘信号，是在告诉别人这支团队在解决错误的问题。按创作判断力、品味、剪辑纪律来做晋升；按 agent 操作来做培训——agent 操作学得更快，也更绑定你最终落到的那个平台。

3. 按组合规模做生产规划

成本崩塌意味着你能负担得起多次尝试并杀掉其中大部分。今年下半年赢的团队，是那种一年上 8–12 次、用数据学习的团队，不是那种把一个季度预算赌在一部旗舰项目上的团队。爆款驱动的品类——竖屏短剧、社交电商、品牌内容——都奖励"出手次数"。相应地：把"单次尝试的制作成本"和"赢家的投流支出"分开摆，不要把它们合在一行预算里。

结论

2026 年前五个月没有交付一个大惊喜。它交付了六个结构性变化，合起来把行业从 2025 年的基底上挪走了。模型层不再是产品。Agent 层才是。Sora 2 的崩塌和悦马 1.0 匿名 48 小时登顶，不是两个无关的故事——是同一个故事讲了两次：一次从失败的那一面，一次从成功的那一面。赢的模型不是"最好的"模型。是"在那只知道该挑哪个模型的 agent 里、表现最好的"模型。

如果你的 AI 视频技术栈依然把"挑哪个模型"当核心决策，你是在 2026 年的市场里跑 2025 年的剧本。这是可以修的。会拿下今年下半年的多数团队，正在这一季度做这个修复。

常见问题

2026 年上半年 AI 视频领域最大的单一事件是什么？

3 月 24 日宣布、4 月 26 日生效的 Sora 2 关停。这个产品作为消费提供活了 84 天，烧出了大约 600:1 的成本/收入比（峰值日推理约 $1500 万，全周期总收入约 $210 万），把已签的 10 亿美元迪士尼 IP 合作也一起拖下水。下游效应——剩余模型之间的能力收敛、价值向 agent 层转移——才是结构性变化。

2026 年中国 AI 视频模型真的处在顶部了吗？

是的，而且不是泛泛而论。具体来说：Kling 3.0（快手）领跑风格化和动画；Seedance 2.0（字节）领跑参考素材驱动的品牌片，并通过剪映分发到约 5 亿+ 用户；悦马 1.0（阿里 ATH AI Innovation Unit，张迪主导）领跑中文短剧——4 月 7 日匿名上线后 48 小时拿到 Arena 榜首。全球在用的生产级模型前六里有三家在中国。

2026 年中 prompt engineering 还是有用的技能吗？

用来出成片，没什么用了——agent 已经把这部分吃掉，"prompt engineer"职位发布量自 2025 Q4 起持续下降。用来做研究、评测、边角实验，prompt 技能仍然重要。但它已经不是产能瓶颈，按 prompt 技能招人是在告诉别人这支团队在解决错误的问题。

2026 年 AI 视频比真人拍摄便宜多少？

按题材大约 10–40 倍。80 集竖屏短剧从 $150K–$300K 降到 $10K–$25K。30 秒品牌广告从 $30K–$200K 降到 $1K–$5K。前提：付费拉新成本（Meta、TikTok 投流）没有下降，仍是创作者经济结果上的卡死约束。制作那一行塌了；分发那一行没塌。

一支 AI 视频团队现在应该聚焦在什么上？

建立或采用一个统一的 agent 层，处理模型间路由、角色身份持续、音频弧规划、组装。到 2026 年中，模型层是商品；差异化在它上面那一级。多模型 agent 栈在成本、速度、质量上同时打败单模型栈——已经没有"挑一个模型并标准化"的剩余论据。

模型层会再次成为差异化点吗？

按当前轨迹看不太可能。杀死 Sora 2 那个 $200/月档位的算力经济学（600:1 的成本/收入比），适用于任何想做"独大"模型方的玩家。赛道内的专业化会继续，但单一模型撑起整个创作栈的时代结束了。下一轮差异化来自 agent 基础设施，不来自一个新模型在某个 benchmark 上登顶。

关于作者
Chris Sherman 报道 AI 视频技术与创作生产工作流。关注 @GenraAI 获取更多 AI 影视制作指南。