已经发生的六件事:2026 年中 AI 视频盘点
· Genra AI不是预测。是清单。已经成为行业默认运转方式的六件事。
趁你还在盯着模型,行业已经重组完了
如果你 12 月 31 日睡着,本周才醒过来,2025 年底那个版本的 AI 视频你会认不出来。Sora 2 的 logo 已经从 OpenAI 的产品页消失。Artificial Analysis Video Arena 上被引用最多的那个模型,是一个八周前还不存在、由你没听过的团队匿名提交的产品。创作者论坛里压过其他话题的问题,不再是"哪个模型最好",而是"我应该用哪只 agent"。角色一致性——过去两年里把每一个长视频项目都卡死的瓶颈——不再是任何人会拿出来宣传的功能。一部 10 分钟的 AI 纪录片,年初还是登月级 demo,现在是一个独立创作者一个工作周就能交出的活儿。
五个月。六个变化。下面这些都不是预测。是清单:到 2026 年 5 月,已经成为整个行业默认运转方式的事实。每一条都讲清楚——之前是什么、变了什么、背后的具体事件和数字、对你接下来要做的事意味着什么。
变化一 — Sora 2 崩塌,重排了顶层格局
到目前为止 2026 年最大的单一事件,有具体日期:2025 年 12 月 31 日(Sora 2 上线),2026 年 1 月 10 日(上线 10 天后免费档关停),2026 年 3 月 24 日(关停宣布),2026 年 4 月 26 日(消费端 App 与网页关停),2026 年 9 月 24 日(API 终止)。作为消费产品活了 84 天。AI 视频史上炒得最猛的发布,就这样在一个财季里走完上线、达峰、关停。
关键数据放在一起看,能解释为什么塌得这么快、为什么把这么多资本和信誉一起拖下水:
| 指标 | Sora 2 | 行业基准 |
|---|---|---|
| 峰值日推理成本 | 约 $1500 万 | 同等流量下要低一个数量级 |
| Sora 全周期可归因总收入 | 约 $210 万 | — |
| 成本/收入比 | 约 600:1 | 可持续 AI 工具 < 5:1 |
| 1080p 解锁价 | $200/月(仅 Pro 档) | $5–30/月(Kling、Runway、Seedance) |
| 标准档分辨率 | 480p | 720p–1080p |
| 免费档时长 | 10 天后取消 | 持续提供(限量) |
迪士尼合作的崩盘把财务上的伤口又撕开一层。OpenAI 与迪士尼签了一份大约 10 亿美元的 IP 合作,覆盖迪士尼动画、漫威、皮克斯、星球大战旗下 200 多个角色——AI 视频产品历史上排得上号的最大护城河。迪士尼据报道是在公开宣布前不到一个小时才被通知。合作直接终止。在那之后几周,三位与 Sora 消费业务相关的 OpenAI 高管离职。(完整复盘见我们对 Sora 关停的拆解。)
下游效应没有按多数观察者预测的方向走。Sora 2 用户没有迁到一个替代品。他们按"活儿"分开了:物理重的活儿迁到 Veo 3.1,cameo 式的真人插入迁到 Kling 3,长分镜序列迁到 Seedance 2,写实人物迁到 Luma Ray3——具体迁徙路径见"Sora 用户都去哪了"那篇报告。"一个模型解决一切"的话术随着 Sora 2 一起塌了,没有被重建。
这件事改变了什么。榜单变成"按活儿分"了。2026 年 5 月没有 Q1 那种"最好的模型"答案。该问的是:你要拍的这个镜头,最适合哪个模型——而这个问题,越来越多地是 agent 在回答,不是创作者。靠单一英雄模型撑起整套创作栈的时代结束了,而且不太可能回来:杀死 Sora 2 的算力经济(每 1 美元收入烧掉 600 美元算力)不是 OpenAI 独有的,它适用于任何想做"独大"模型方的玩家。
变化二 — 榜单顶部换主了,换的是中国造
Sora 2 退场的另一面,是中国出的模型不仅补上空缺,而且把榜单顶部抢了。最清晰的例证是悦马 1.0(HappyHorse 1.0)——2026 年到目前为止最具结构意义的一次模型上线。
2026 年 4 月 7 日,一个匿名模型出现在 Artificial Analysis Video Arena 排行榜上。没有新闻稿、没有团队 logo、没有公开权重。48 小时内它在 Text-to-Video 上拿到 Elo 1389——比之前的领跑者 Seedance 2.0 高 115 分,在 Image-to-Video 上拿到 Elo 1416,两项均第一。4 月 9–10 日,X 账号 @AthAI_Official 揭晓:模型是阿里巴巴 ATH AI Innovation Unit 出品,主导者是张迪——前快手 VP,Kling AI 的架构师。一个中国领跑者的架构师,悄悄叛逃,在另一家中国巨头里把对手重做了一遍。(完整技术分析见我们的悦马 1.0 拆解。)
悦马是头条,但不是孤例。截至 5 月中,按赛道列出的顶部格局:
| 赛道 | 领跑者(2026 年 5 月) | 出处 | 原因 |
|---|---|---|---|
| 风格化 / 动画 / anime 邻近 | Kling 3.0 | 快手(中国) | 原生 4K/60fps,顶级模型里最大方的免费档 |
| 参考素材驱动的品牌片与商品视频 | Seedance 2.0 | 字节跳动(中国) | 多模态参考体系,通过剪映分发到约 5 亿+ 用户 |
| 中文短剧与 CN 电商 | 悦马 1.0 | 阿里巴巴(中国) | 原生中文对口型,顶级档里最便宜的 API |
| 对白重、广播级收尾 | Veo 3.1 | 谷歌(美国) | 48 kHz 原生音频,专业 color science,Extend |
| 写实人物 / talking head | Luma Ray3 | Luma(美国) | 皮肤纹理、眼神表演、微表情 |
| 本地 / on-prem / NDA 工作 | LTX-2 | Lightricks(以色列) | 第一个能在单张高端消费级显卡上稳定跑的顶级模型 |
六个领跑者里有三个是中国造的。十八个月前,这个配置不存在。这个模式不是民族主义叙事——是因为产生这些模型的人才与资本流向稳定下来了:张迪式的架构师在快手、字节、阿里之间流动现在很常见,光字节的剪映分发渠道就是西方任何 AI 视频创业公司都搬不动的护城河。
这件事改变了什么。模型层不再以西方为默认。2026 年搭生产栈的独立创作者、代理商、片厂,必须把中国模型和美国模型放在同一张评估表上看——不是出于多元,是出于能力和成本的现实需要。Q1 就开始这么干的团队,已经在成本上、以及在西方模型不擅长的能力(中文对口型、anime 邻近风格、单次 $0.5 以下的生成)上拿到了实打实的领先。
变化三 — 模型层商品化了
变化二的姊妹篇,是"最好"和"够用"之间的差距已经收窄。到 2026 年 5 月,前六名 AI 视频模型在多数用例上的单段产出大致可比。Arena 榜上第 1 名和第 6 名之间的 Elo 差距,落在了两年前"前沿模型"和"二线模型"之间的那条裂缝里。当然还有真实的赛道差异——前面那张表已经列了——但差距是赛道差,不是绝对差。
价格数据从另一个角度讲同一件事。2026 年 5 月,主流模型生成一段 5 秒、1080p 视频的成本:
| 模型 | 单次生成成本(5 秒,1080p) | 入门档 |
|---|---|---|
| Kling 3.0 | 约 $0.20–0.30 | $5/月 |
| 悦马 1.0 | 约 $0.25 | 仅 API,顶级档里最低 |
| Seedance 2.0 | 约 $0.40–0.60 | 包含在剪映付费档里 |
| Veo 3.1 | 约 $0.60–0.80 | 跟 Vertex AI / Google AI Studio 计费绑定 |
| Luma Ray3 | 约 $0.80–1.20 | $10/月入门,写实人物溢价 |
| Sora 2(已下线) | 约 $4–8 | $200/月 Pro 才能 1080p |
Sora 2 这一行故意留着。Sora 2 与其余玩家之间 10–20 倍的成本差距,不是 OpenAI 质量领先的特征——是其架构选择不具备商业生存能力的特征。Sora 2 走了,剩下的玩家成本带很窄,价格在收敛。一支按月度预算工作的团队,现在用任何一个顶级模型,能产出大致相同体量、大致相同质量的视频。
2026 是"能力收敛"从被预测变成"看一眼 Arena 榜单和价格页就能读出来"的那一年。同一个 prompt 让 Veo 3.1 生一段、Kling 3 生一段,区分两段的主要靠风格偏好,而不是质量。
这件事改变了什么。价值在向上游转移。如果每个人都能用上能力收敛、价格收敛的生成器,区分点就变成"你怎么编排它们"——哪个镜头路由到哪个模型、身份怎么在它们之间保持、音频弧怎么规划、组装时接缝怎么消失。这一层叫编排,是下一条变化,也是六条里最大的那条。
变化四 — Prompt engineering 死了,agent 层取而代之
"Prompt engineering"在 2024 年每一份招聘 JD 里都写着,2025 年又是大多数 AI 候选人简历上的特色技能。到 2026 年 5 月,这个词读起来已经像 2020 年简历上写"HTML 工程师"一样过时。它描述过的技能是真的,但岗位已经搬走了。
替代品是 agent。在 2026 年,创作者用大白话把意图告诉视频 agent。Agent 把 brief 拆成节拍,把每个节拍按前面那张赛道表路由到最合适的底层模型,生成锁定的角色参考并在每一镜里复用,把旁白和音乐当成连续弧线整体规划(而不是按段做),组装结果,按目标平台导出。创作者停留在创作指导这一层;agent 处理执行。"写一个完美 prompt"的工作流——定义了 2023–2025 年——已经被所有认真追求产能的团队停用。
结构性原因很简单:有了变化三里六个收敛的商品化模型,人写出来的 prompt 跑不过一个知道哪一镜是对白、哪一镜是风格化、哪一镜是参考重的 agent。一个 10 分钟的成片要做 60+ 次生成,把那套路由活儿手动跑一遍的认知负担,正是杀死多工具拼接工作流的那把刀。(工程细节见我们的长视频实战指南,里面把"agent 能吸收哪些 prompt 解决不了的问题"逐一拆开了。)
就业市场信号是具体的。"Prompt engineer"的职位发布量在 2024 年中达到峰值,自 2025 年 Q4 起持续下降。"AI workflow operator"、"AI production lead"、"AI agent operator"——明确描述 agent 级操作的岗位——在同期快速增长。技能定位在从"巧措辞"挪到"系统编排"。
这件事改变了什么。制作速度和质量同时跳了一档,跳的还是同一根轴——编排。2026 年中,产出最被观看的 AI 视频的那批创作者,未必是 prompt 写得最好的——而是用了最好那只 agent 的。在 2026 年中按 prompt 技能招人的团队,是在为一个体量已经不在了的岗位招聘。
变化五 — 角色一致性不再是瓶颈
2024 和 2025 年大部分时间里,把长视频项目搞崩的那一个抱怨是"我没法让主角的脸在不同镜头之间保持一致"。这个现象在创作者圈子里有个名字——"漂移"——还有一条民间律:到第三分钟,你的主角已经是另一个人了。纪录片栽在这上。竖屏短剧栽在这上。整个长视频品类被它卡死。
到 2026 年 5 月,漂移已经不是抱怨了。身份持续——跨集、跨拍摄日、跨模型边界——已经成了任何 agent 驱动管线的入门要求。一个锁定的参考可以在 80 集竖屏短剧里复用、在一部纪录片的 60 次生成里复用、在跨数月的品牌战役里复用,肉眼看不出退化。
解决这件事的技术机制不在某一家模型上。模型实验室因此得益(它们可以不再死磕"在 8 秒一段内保持持续"),但真正合上这道缝的是模型之上的 agent 层。Agent 拿着一个 identity token,把它在不同生成之间带过去,在底层模型之间切换时不丢这个 token,并在每次输出后重新校验是否漂移。底层是 Veo、Seedance、Kling 还是悦马,都没有关系。
这件事改变了"现在能做什么":
| 题材 | 2026 之前 | 2026 年中 |
|---|---|---|
| 80 集竖屏短剧 | 真人拍摄 $150K–$300K;AI 尝试到第 10 集就肉眼可见崩了 | 独立团队,约 6 周,低五位数美元,身份在 80 集里都稳 |
| 10 分钟纪录片 | 必须有档案 + 采访作锚才能跑通 | 独立创作者,3–5 个工作日,身份在 60+ 次生成里稳 |
| 跨周品牌战役 | 需要相互对应的真人拍摄来保持角色 | Agent 在数周生成中把品牌锁定的 AI 角色保持住 |
这件事改变了什么。长视频变得可行了。没有角色持续,AI 视频在结构上是一种短视频媒介——只能做 60 秒片段、孤立场景。有了它,整个长视频品类对独立团队开放了。变化六里讲的那次成本崩塌,绝大部分是这一条单独技术解锁的下游效应。
变化六 — 制作成本砍了一个数量级
大家最常引用竖屏短剧的数字,因为它公开且戏剧性强:真人拍摄一部剧 $150K–$300K 的预算,被 AI 管线替换为同等 70–100 集时长 低五位数美元 的成本。同样的转变,没那么响地,也发生在讲解视频、品牌广告、talking head 内容、动画短片上。过去主导每一个视频项目预算的那一行,对 AI 主导的管线来说,现在是总开支里的个位数百分点。
把不同题材上的成本变化数字摊开看:
| 题材 | 2024 真人拍摄预算 | 2026 AI 管线预算 | 降幅 |
|---|---|---|---|
| 80 集竖屏短剧 | $150K–$300K | $10K–$25K | 约 10–15 倍 |
| 10 分钟讲解视频 | $8K–$30K | $300–$1,500 | 约 20 倍 |
| 30 秒品牌广告 | $30K–$200K+ | $1K–$5K | 约 20–40 倍 |
| 5 分钟动画短片 | $20K–$80K(动画工作室) | $500–$2,500 | 约 30 倍 |
有一条关键限定必须摆在桌面上,因为它决定了这次成本崩塌能不能复合成创作者经济故事:付费拉新成本没有下降。Meta 和 TikTok 的广告 CPM 同比基本持平。一部 AI 制作的视频能不能找到观众的卡死约束,仍然是它背后的投流——竖屏短剧要打中爆款,单部投流仍在 $200K–$1M 区间。制作那一行掉了 10–40 倍;分发那一行没掉。(独立团队跑 ReelShort/DramaBox 模式时这件事怎么落地,我们在ReelShort playbook 里拆开过。)
命中率的算法跟着变了。2024 年,独立团队要跑一部真人拍摄的竖屏短剧、并且活到能再跑一次的概率是合理的,差不多需要 200 万美元的工作资金(一次 $150K 制作 + 投流;一次失败基本就结构性致命)。2026 年,同一支独立团队在差不多的总预算下,一年能上 8–12 次尝试,因为单次成本掉了 10–15 倍。爆款驱动的品类奖励"出手次数"。能玩这局游戏的人是谁——这个数学题悄悄重做了一遍,但完整地重做了。
这件事改变了什么。"谁能尝试一次制作"的经济学被重排了。过去连一次真人拍摄都付不起的独立团队,现在能做一组并发的尝试。靠旧的固定成本护城河得益的片厂失去了那条护城河。"资本在行业顶层集中"(2010 年代流媒体的玩法)正在被"资本在边缘碎片化"取代。
这六个变化合起来意味着什么
放到一起读,这不是六个独立的故事。是同一个故事从六个角度讲:AI 视频的重心已经从模型上挪到模型之上的那一层编排上。顺序是有因果的:
- Sora 2 崩了(变化一)——把"一个模型解决一切"那条最清晰的论点从台面上拿走。
- 中国模型抢占顶层赛道(变化二)——把"单一领跑"换成"多极"。
- 模型层商品化(变化三)——把"最好"和"够用"之间的差距收进了一个不影响创作者输出的窄带。
- Prompt engineering 死、agent 层崛起(变化四)——因为面对多极模型层,没有人能在路由速度上跑过 agent。
- 角色一致性不再是瓶颈(变化五)——因为 agent 层把 identity token 在模型之间带过去,解决了任何单一模型解不了的事。
- 制作成本砍了一个数量级(变化六)——因为便宜的商品化模型加上能跑的 agent,复合下来生成的"分钟成本结构",是任何真人拍摄工作流都赶不上的。
2026 年要建创意团队,落到操作上的结论是:"我们能用 Veo 和 Kling 和 Seedance"已经不是一个有意义的能力声明。每支队伍都能用。把每月稳出 10 支可用视频的团队,跟每月只能出 1 支的团队区分开的,是 brief 和模型之间那一层 agent 基础设施。
这对 2026 年下半年意味着什么
从这六个变化里出来的三个方向调整。每一个都替换掉一件 2025 年还能跑、2026 年上半年某一刻起停止生效的旧打法。
1. 不要再排模型,开始路由模型
如果你的团队还在做内部评测来挑"最适合我们栈的那个模型",你正在花 2025 年会奖励、2026 年已经停止奖励的精力。Arena 榜单有信息量,但真正该问的是:哪一组模型组合,由 agent 路由,匹配你在对白、参考、风格化、语言上的生产需要。一个多模型 agent 栈,现在在成本、速度、质量上同时打败一个单模型栈。"我们标准化用 Veo"、"我们标准化用 Kling"——12 个月前还能跑的论点,现在已经没有立足点了。
2. 招创作判断力,不招 prompt 技能
产能上的瓶颈不再是"有没有人能写好 prompt"——而是"有没有人对要做什么有清晰的视角"。把 prompt engineering 当作招聘信号,是在告诉别人这支团队在解决错误的问题。按创作判断力、品味、剪辑纪律来做晋升;按 agent 操作来做培训——agent 操作学得更快,也更绑定你最终落到的那个平台。
3. 按组合规模做生产规划
成本崩塌意味着你能负担得起多次尝试并杀掉其中大部分。今年下半年赢的团队,是那种一年上 8–12 次、用数据学习的团队,不是那种把一个季度预算赌在一部旗舰项目上的团队。爆款驱动的品类——竖屏短剧、社交电商、品牌内容——都奖励"出手次数"。相应地:把"单次尝试的制作成本"和"赢家的投流支出"分开摆,不要把它们合在一行预算里。
结论
2026 年前五个月没有交付一个大惊喜。它交付了六个结构性变化,合起来把行业从 2025 年的基底上挪走了。模型层不再是产品。Agent 层才是。Sora 2 的崩塌和悦马 1.0 匿名 48 小时登顶,不是两个无关的故事——是同一个故事讲了两次:一次从失败的那一面,一次从成功的那一面。赢的模型不是"最好的"模型。是"在那只知道该挑哪个模型的 agent 里、表现最好的"模型。
如果你的 AI 视频技术栈依然把"挑哪个模型"当核心决策,你是在 2026 年的市场里跑 2025 年的剧本。这是可以修的。会拿下今年下半年的多数团队,正在这一季度做这个修复。
常见问题
2026 年上半年 AI 视频领域最大的单一事件是什么?
3 月 24 日宣布、4 月 26 日生效的 Sora 2 关停。这个产品作为消费提供活了 84 天,烧出了大约 600:1 的成本/收入比(峰值日推理约 $1500 万,全周期总收入约 $210 万),把已签的 10 亿美元迪士尼 IP 合作也一起拖下水。下游效应——剩余模型之间的能力收敛、价值向 agent 层转移——才是结构性变化。
2026 年中国 AI 视频模型真的处在顶部了吗?
是的,而且不是泛泛而论。具体来说:Kling 3.0(快手)领跑风格化和动画;Seedance 2.0(字节)领跑参考素材驱动的品牌片,并通过剪映分发到约 5 亿+ 用户;悦马 1.0(阿里 ATH AI Innovation Unit,张迪主导)领跑中文短剧——4 月 7 日匿名上线后 48 小时拿到 Arena 榜首。全球在用的生产级模型前六里有三家在中国。
2026 年中 prompt engineering 还是有用的技能吗?
用来出成片,没什么用了——agent 已经把这部分吃掉,"prompt engineer"职位发布量自 2025 Q4 起持续下降。用来做研究、评测、边角实验,prompt 技能仍然重要。但它已经不是产能瓶颈,按 prompt 技能招人是在告诉别人这支团队在解决错误的问题。
2026 年 AI 视频比真人拍摄便宜多少?
按题材大约 10–40 倍。80 集竖屏短剧从 $150K–$300K 降到 $10K–$25K。30 秒品牌广告从 $30K–$200K 降到 $1K–$5K。前提:付费拉新成本(Meta、TikTok 投流)没有下降,仍是创作者经济结果上的卡死约束。制作那一行塌了;分发那一行没塌。
一支 AI 视频团队现在应该聚焦在什么上?
建立或采用一个统一的 agent 层,处理模型间路由、角色身份持续、音频弧规划、组装。到 2026 年中,模型层是商品;差异化在它上面那一级。多模型 agent 栈在成本、速度、质量上同时打败单模型栈——已经没有"挑一个模型并标准化"的剩余论据。
模型层会再次成为差异化点吗?
按当前轨迹看不太可能。杀死 Sora 2 那个 $200/月档位的算力经济学(600:1 的成本/收入比),适用于任何想做"独大"模型方的玩家。赛道内的专业化会继续,但单一模型撑起整个创作栈的时代结束了。下一轮差异化来自 agent 基础设施,不来自一个新模型在某个 benchmark 上登顶。
关于作者
Chris Sherman 报道 AI 视频技术与创作生产工作流。关注 @GenraAI 获取更多 AI 影视制作指南。