HappyHorse 1.0：Alibaba 神秘 AI 视频模型横扫所有基准测试

2026 年 4 月 7 日，一个无名模型出现在 Artificial Analysis Video Arena 排行榜上，没有任何公告、没有团队署名、没有公开权重。数日之内，它在文生视频和图生视频两项排名中均登顶第一。随后，Alibaba 站了出来。

打破排行榜的匿名模型

AI 视频领域存在一个排行榜问题。当知名实验室提交模型时，社区投票可能仅因品牌知名度而产生偏差。人们投票给的是品牌，而不仅仅是输出质量。这种现象多年来一直困扰着大语言模型的基准测试。

2026 年 4 月 7 日，有人决定完全绕开这个问题。一个 AI 视频模型出现在 Artificial Analysis Video Arena 排行榜上，使用了一个无人认识的名字：HappyHorse。没有新闻稿，没有公司标识，没有关联的研究实验室。只有提交给盲评的原始输出结果。

48 小时内，HappyHorse 攀升至文生视频排行榜榜首，Elo 评分达到 1389——比此前的榜首 Seedance 2.0 整整高出 115 分。在图生视频类别中，它的 Elo 评分达到 1416，同样位列第一。这并非微弱的领先优势，而是在两个类别中都取得了决定性的领先。

AI 社区做了他们一贯会做的事：各种猜测。是 Google DeepMind 在测试什么新东西？是某个无人听闻的创业公司？还是一个默默训练了数月的开源项目？

2026 年 4 月 9 至 10 日，一个新创建的 X（前 Twitter）账号揭开了答案。HappyHorse 1.0 由 Alibaba 旗下的 ATH AI 创新部门打造，这是一个新部门，由一个能立刻解释模型质量的名字领导：张迪，快手前副总裁，Kling AI 的架构师。

打造 Kling 的人，已经悄然打造出了它的替代者。

戏剧性的起源：从 Kling AI 到 HappyHorse

要理解为什么 HappyHorse 如此重要，你需要了解谁打造了它，以及他们为什么离开前公司来做这件事。

张迪：中国 AI 视频领域最重要的名字

张迪曾担任快手副总裁，快手是中国最大的短视频平台之一（可比作 TikTok 的国内竞争对手）。在快手期间，他主导开发了 Kling AI，这一系统成为全球最强大的 AI 视频生成系统之一。Kling 在公开基准测试中长期位居前列，在 2025 年的大部分时间里被普遍认为是中国领先的 AI 视频模型。

然后，在 2025 年底，张迪离开了快手。

他加入了 Alibaba 集团，领导 淘天未来生活实验室，这是 Alibaba 电商业务下属的一个研发部门。这次转会意义重大，但在当时的西方媒体中报道有限。然而在中国科技圈，这被视为一次重大的人才收购。Alibaba 不仅仅是在招聘一位高管——他们获得的是打造出中国最好 AI 视频系统的人。

匿名亮相

将 HappyHorse 匿名提交到 Video Arena 的决定是经过深思熟虑的。通过去除 Alibaba 品牌，张迪的团队确保了模型的表现完全基于输出质量来评估。没有光环效应，没有对 Alibaba AI 能力的先入为主的偏见。

当 X 账号 @AthAI_Official 在 4 月 9 至 10 日确认这一关联时，这个揭示之所以产生巨大冲击，恰恰是因为结果已经摆在了排行榜上。HappyHorse 不是先公布再测试的，而是先测试、先称霸，然后才认领的。

战略传播的信号非常清晰：这个团队能够打造出在盲评中击败所有竞争对手的模型，而且他们在部门成立后大约四个月内就做到了。

ATH AI 创新部门

ATH AI 创新部门似乎是 Alibaba 内部一个相对较新的部门，与该公司现有的通义（Qwen）AI 实验室不同。关于该部门结构的细节有限，但模型的能力表明这是一个资源充足、在视频生成架构方面拥有深厚专业知识的团队。"ATH" 这个名称 Alibaba 尚未公开解释，但可能指的是"Alibaba 淘天控股"，即淘天未来生活实验室所属的电商子公司。

技术架构：HappyHorse 有何不同

HappyHorse 1.0 并非简单地将现有视频模型放大。它的架构与当今大多数 AI 视频系统使用的多阶段流水线有着根本性的不同。

核心规格

参数量：150 亿
架构：统一的 40 层自注意力 Transformer
设计：单流架构（视频和音频在一次前向传递中联合生成）
分辨率：原生 1080p 高清输出
生成速度：在单块 H100 GPU 上生成一个 1080p 片段约需 38 秒

单流统一生成

大多数现有的同时处理视频和音频的 AI 视频模型，都是通过独立模块来完成的。一个视频生成主干网络生成视觉帧，然后一个独立的音频模型——通常使用交叉注意力机制——生成相应的声音。这种多阶段方法会引入延迟、同步伪影以及视觉流和音频流之间的误差累积。

HappyHorse 采用了一种根本不同的方法。它的单流架构通过一个统一的 40 层自注意力 Transformer，在同一次前向传递中联合生成视频和音频。没有在独立的视觉和音频子网络之间桥接的交叉注意力模块。相反，两种模态共享相同的注意力层，使模型能够学习视觉内容与声音如何关联的联合表征。

实际效果是：唇部动作、环境声音、音乐和拟音效果都能紧密同步生成，因为它们来自同一个计算过程，而非两个试图保持对齐的独立系统。

150 亿参数的背景

以 150 亿参数而言，HappyHorse 并非现存最大的视频模型——一些竞品超过 300 亿参数——但其性能表明架构效率比单纯的规模更为重要。统一的单流设计可能减少了多模块系统中的冗余计算。40 层深度为联合音视频建模提供了充足的表征能力，同时避免了维护独立注意力通路的额外开销。

作为参考，在单块 H100 上生成一个 1080p 片段约需 38 秒，这一速度具有竞争力。许多同等级别的模型需要多块 GPU 或显著更长的生成时间才能产出同等分辨率的输出。

核心能力：HappyHorse 究竟能做什么

基准测试的 Elo 评分只能告诉你模型在盲评中胜出。它们无法告诉你模型具体擅长什么。根据 ATH AI 团队提供的演示和技术披露，以下是 HappyHorse 1.0 的具体表现。

统一的音视频生成

这是 HappyHorse 的核心特性，也是最可能在商业上产生价值的特性。在一次生成过程中，模型产出以下内容：

精确唇同步的对话——角色说话时嘴部动作在音素级别与音频波形匹配，而不仅仅是粗略的下巴运动
环境声音——根据场景上下文生成的适当环境音（城市街道、自然、室内空间）
音乐——与视觉内容的情绪和节奏匹配的背景音乐
拟音效果——与画面动作绑定的音效（脚步声、关门声、物体交互声），与视觉事件精确同步

所有这些都在一次前向传递中完成。无需后处理音频流水线。无需额外接入独立的语音合成系统。这对制作工作流的影响意义重大：通常需要视频模型、语音合成系统、拟音库和混音工程师的工作，被压缩到了一个生成步骤中。

多语言唇同步

HappyHorse 支持七种语言的唇同步对话：英语、普通话、粤语、日语、韩语、德语和法语。团队声称在这些语言中实现了"极低字错误率"的唇同步，这意味着视觉上的嘴部动作并非简单的张合，而是根据每种语言的具体语音模式进行建模的。

这在技术上极具挑战性，因为不同语言对常见音素有着截然不同的嘴型。普通话的声调结构涉及与英语辅音簇不同的唇部和下巴位置。日语的音节体系产生的发音模式与法语连读密集的语流不同。一个能在单一架构中处理所有这些的模型，是一项不容小觑的成就。

角色一致性和环境保持

AI 视频模型长期以来的一个薄弱环节是在帧与帧、场景与场景之间保持角色外观的一致性。角色的面部可能会发生细微变化，服装颜色可能在镜头之间改变，或者环境细节可能会漂移。HappyHorse 在角色一致性方面的处理达到了使实际应用变得可行的水平：

概念艺术动画化——提供静态角色插画，生成该角色运动的视频，同时保持原始艺术风格
肖像动画——将静态照片转化为说话或运动的视频，同时保持面部身份特征
产品图片动画化——将静态产品图片生成展示产品使用场景、不同角度或上下文环境的视频

生成速度

HappyHorse 的平均生成时间约为 10 秒，使其成为同质量级别中速度最快的模型之一。作为对比，一些同等质量级别的竞品模型每次生成需要 30 至 90 秒。速度对于迭代式创意工作流非常重要，用户需要生成多个变体后再选择最终输出。

支持的模式

文生视频——根据文本描述生成视频
图生视频——将静态图片转化为视频
音频生成——对话、音乐、环境声音和拟音效果与视频联合生成

基准测试表现：详细数据

Artificial Analysis Video Arena 使用盲评人类评估来对 AI 视频模型进行排名。用户会看到两个匿名模型的输出并排展示，然后选择他们更偏好的那个。结果被转换为 Elo 评分——与国际象棋使用的相同评分系统——分数越高表示模型在一对一比较中获胜频率越高。

以下是 HappyHorse 1.0 截至 2026 年 4 月中旬的表现。

文生视频（无音频）

排名	模型	Elo 评分	与第一名的差距
1	HappyHorse 1.0	1389	--
2	Seedance 2.0	1274	-115
3	Kling 3.0	~1260	~-129

在盲评人类评估中，115 分的 Elo 差距是相当大的。用国际象棋来类比，这大致相当于一名强棋手与地区冠军之间的差距。这意味着 HappyHorse 在与排行榜上所有其他模型的一对一视觉对比中，以较大优势赢得了大多数比赛。

图生视频（无音频）

排名	模型	Elo 评分	与第一名的差距
1	HappyHorse 1.0	1416	--
2	Seedance 2.0	~1300	~-116
3	Kling 3.0	~1280	~-136

图生视频类别的领先优势更为显著。1416 的 Elo 评分是迄今为止任何模型在该排行榜上取得的最高分数。图生视频可以说是商业上更为重要的模式，因为它使用户能够将现有素材——产品照片、概念艺术、分镜稿——制作成动画，而非完全从文本生成。

文生视频（含音频）

排名	模型	Elo 评分
1	Seedance 2.0	1220
2	HappyHorse 1.0	1215

在这些样本量下，5 分的差距处于误差范围内。这是统计意义上的平局。两个模型产出的音视频内容在人类评估者看来同样出色。

图生视频（含音频）

在这个类别中，HappyHorse 和 Seedance 2.0 的 Elo 评分相差不到 2 分——又是一个统计意义上的平局。当音频质量纳入评估时，两个模型都没有明显的优势。

基准测试告诉我们什么

模式非常清晰：HappyHorse 在纯视觉质量上占据主导地位，在无音频的文生视频和图生视频中都取得了决定性的领先。当音频纳入评估时，Seedance 2.0 将差距缩小到统计意义上的平局，这表明 Seedance 在音频质量或音视频同步方面可能略有优势，足以抵消 HappyHorse 的视觉优势。

对于主要需要视觉输出（并将单独添加音频或不需要音频）的用户来说，HappyHorse 是明确的领先者。对于需要集成音视频输出的用户来说，在当前基准测试中，两个模型实际上相当。

HappyHorse 1.0 vs. Seedance 2.0 vs. Kling 3.0：正面对决

这个对比的讽刺意味怎么强调都不为过。张迪在快手打造了 Kling。他离开了。他在 Alibaba 打造了 HappyHorse。而现在 HappyHorse 超越了他最初创造的模型。这相当于 AI 界的主教练离开冠军球队，加入竞争对手，然后立刻赢得了更大的冠军。

类别	HappyHorse 1.0	Seedance 2.0	Kling 3.0
开发者	Alibaba (ATH AI)	ByteDance	快手
文生视频 Elo（无音频）	1389（第 1）	1274（第 2）	~1260（第 3）
图生视频 Elo（无音频）	1416（第 1）	~1300（第 2）	~1280（第 3）
文生视频 Elo（含音频）	1215（第 2）	1220（第 1）	无数据
图生视频 Elo（含音频）	统计平局	统计平局	无数据
参数量	150 亿	未公开	未公开
架构	统一单流 Transformer	多模块流水线	扩散 Transformer
原生分辨率	1080p	1080p	1080p
音频生成	统一（单次传递）	集成（多模块）	独立流水线
唇同步语言	7 种（英、中、粤、日、韩、德、法）	有限披露	已确认 2-3 种
平均生成速度	约 10 秒	约 30 秒	约 45 秒
开源	已宣称（权重尚未发布）	否	否
API 可用性	即将推出（2026 年 4 月下旬）	可用	可用
定价	尚未公布	按次计费	按次计费

张迪因素

这个对比中最引人注目的元素是人才流动。张迪在快手花了多年时间将 Kling 打造成顶级 AI 视频系统。他深谙其架构，了解其局限性，并且大概有关于如何打造更好产品的想法——而这些想法可能在快手的组织架构或战略优先级下无法得到支持。

在 Alibaba，凭借新的资源和打造全新产品的使命，他似乎做到了这一点。定义 HappyHorse 的统一单流架构在理念上与 Kling 的方法截然不同，这表明张迪的下一代想法需要从零开始设计，而非对 Kling 代码库进行渐进式改进。

这种模式——关键技术负责人离开一个 AI 实验室并在竞争对手那里打造出更强大的系统——正在成为中国 AI 视频行业的一个标志性动态。它与硅谷类似的人才流动相呼应，但发生的速度更快，竞争后果也更为直接。

三个中国模型位居榜首

一个值得直言的事实：Artificial Analysis Video Arena 排行榜前三名的模型全部来自中国公司。HappyHorse（Alibaba）、Seedance 2.0（ByteDance）和 Kling 3.0（快手）分别占据第一、第二和第三的位置。目前没有任何西方模型在文生视频或图生视频基准测试中进入前三。

这并不是说西方实验室没有在制作出色的视频模型——Google 的 Veo 2、OpenAI 的 Sora 和 Runway Gen-4 都有各自的亮点。但就盲评人类偏好排名而言，当前的排行榜属于中国 AI 实验室。

开源与可用性：宣称与现实的差距

HappyHorse 1.0 被描述为一个开源模型。然而，截至 2026 年 4 月 20 日，现实与宣称并不匹配。

已发布的内容

公开权重：不可用。没有在任何平台（HuggingFace、ModelScope 或直接下载）上发布可下载的模型检查点。
GitHub 仓库：仓库存在但显示"即将推出"状态，没有源代码或模型文件。
技术论文：没有发布经过同行评审的论文或详细技术报告。可用的技术细节来自社交媒体帖子和 ATH AI 团队的有限披露。
API 访问：尚未开放公众使用。

即将推出的内容

fal.ai 有一个专门的 HappyHorse 页面，确认该模型"即将在 2026 年 4 月下旬推出"。fal.ai 是一个知名的推理平台，为各类 AI 模型提供 API 访问，因此这是一个可信的近期可用性指标。
Atlas Cloud 据报道也在准备 HappyHorse 的 API 访问，但尚未确认具体上线日期。
ATH AI 团队已表示将发布开源权重，但尚未承诺具体时间表。

"开源"之问

在 AI 行业中，"开源"一词已变得越来越模糊。一些模型在宽松许可证下发布完整权重（真正的开源）。另一些在限制性商业许可证下发布权重（开放权重但并非传统定义的开源）。还有一些宣布了开源意图但推迟发布或从未兑现。

HappyHorse 目前属于最后一类：意图已经表达，但没有发布任何权重或代码。这值得持续关注而非提前庆祝。如果权重最终发布，许可证条款将决定 HappyHorse 是否真正开源，或者仅仅是带有商业限制的开放权重。

就实际使用而言，在近期内使用 HappyHorse 最可能的途径是通过 fal.ai 和 Atlas Cloud 等托管 API 提供商。定价尚未公布，但鉴于 AI 视频 API 市场的竞争态势，其定价可能与 Seedance 2.0 和 Kling 3.0 的接口价格相当。

这对 AI 视频格局意味着什么

HappyHorse 1.0 的出现带来的影响，远不止于一个模型登顶一个排行榜。

中国 AI 视频的加速发展

十二个月前，AI 视频领域的话题中心还是 Sora 的发布、Runway 的 Gen-3 以及 Pika 的快速迭代。中国模型虽然存在，但通常被视为具有竞争力而非占据主导地位。这一态势已经逆转。在 2026 年 4 月，中国模型在每一项主要视频生成基准测试中都位居前列，而且差距正在扩大而非缩小。

速度尤其值得关注。HappyHorse 从团队组建（2025 年底）到登顶排行榜第一（2026 年 4 月）仅用了大约四个月。这个时间线表明，要么是超凡的工程效率，要么是张迪从此前工作中带来的大量现有研究成果，或者两者兼而有之。

人才是关键变量

HappyHorse 的故事揭示了一个 AI 行业有时低估的现实：模型是由人打造的，关键技术领导者的流动能够比任何规模的算力扩展都更快地重塑竞争格局。

张迪从快手到 Alibaba 的转会并非个例。中国 AI 视频领域的人才在大型科技公司、创业公司和学术实验室之间加速流动。每一次流动都携带着机构知识、架构直觉和从此前失败中吸取的教训。结果是一个竞争生态系统，没有任何单一公司能够维持持久的领先地位，因为创造这种领先的人可能随时离开并打造更好的东西。

对于西方 AI 实验室而言，这种动态构成了一个战略挑战。中国的 AI 视频生态系统不是一个可以追踪的单一竞争对手——它是一个人才市场，突破性的能力可能在任何时候从意想不到的方向出现。

统一架构成为新标准

HappyHorse 的单流统一音视频生成架构可能代表了一场更广泛的架构变革的开端。如果这种方法在更多用户测试后被证明是稳健的，它可能会确立一个新标准，其他实验室将需要跟进。具有独立音频和视频阶段的多模块流水线可能越来越像过时的架构。

这对模型效率有实际影响。单一统一模型部署更简单，基础设施开销更少，并且避免了困扰多阶段系统的同步挑战。对于 API 提供商和云平台而言，统一模型的服务成本更低。

速度因素

HappyHorse 约 10 秒的平均生成时间值得特别强调。快速生成不仅仅是一种便利——它从根本上改变了人们与 AI 视频工具的交互方式。在每次生成仅需 10 秒的情况下，用户可以快速迭代：生成一个片段、评估它、调整提示词、再次生成。而在每次生成需要 60 至 90 秒的情况下，每次迭代都像是一种承诺，用户不太可能探索创意变体。

速度对商业应用也至关重要。实时或接近实时的视频生成开启了直播内容制作、交互式体验和大规模个性化视频等应用场景——这些在较慢的生成速度下是不切实际的。

Genra 正在关注什么

在 Genra，我们关注每一个主要的 AI 视频模型发布，因为我们的多模型流水线旨在将每个生成请求路由到最适合该特定任务的最佳可用模型。HappyHorse 1.0 在视觉质量基准测试中的表现令人印象深刻，一旦通过 fal.ai 或其他提供商获得 API 访问权限，我们计划将其集成到我们的流水线中。

统一音视频生成能力对于我们那些需要在单一工作流步骤中获得完整视频加声音输出的用户来说尤其有价值。如果 HappyHorse 的音频质量在实际生产使用中能像基准测试中一样出色，它可以减少许多常见视频生成任务所需的流水线阶段数量。

核心要点

HappyHorse 1.0 是排名最高的 AI 视频模型，在 Artificial Analysis Video Arena 上，无音频类别的文生视频（Elo 1389）和图生视频（Elo 1416）均排名第一。含音频评估中，它与 Seedance 2.0 在两个类别中打成平局。
由 Alibaba 旗下的 ATH AI 创新部门打造，由张迪领导——他是快手前副总裁，Kling AI 的缔造者。该模型从团队组建到登顶排名第一仅用了大约四个月。
150 亿参数搭配统一单流架构，在一次前向传递中联合生成视频和音频。音频和视频子网络之间没有交叉注意力模块。
原生 1080p 分辨率，约 10 秒生成速度，使其成为同质量级别中速度最快的模型之一。支持 7 种语言的唇同步，包括英语、普通话、粤语、日语、韩语、德语和法语。
开源声明仍未得到验证——没有公开权重、没有可下载模型、没有发布代码。API 访问预计将在 2026 年 4 月下旬通过 fal.ai 和 Atlas Cloud 提供。
三个中国模型现在主导了所有主要基准测试：HappyHorse（Alibaba）、Seedance 2.0（ByteDance）和 Kling 3.0（快手）。这些公司之间的人才流动正在加速推动竞争发展。
统一音视频架构可能树立新标准，推动竞争对手从多阶段流水线转向单模型联合生成。

常见问题

什么是 HappyHorse 1.0？

HappyHorse 1.0 是由 Alibaba 旗下 ATH AI 创新部门打造的 AI 视频生成模型。它是一个拥有 150 亿参数的统一 Transformer，能在一次前向传递中联合生成视频和音频。它目前在 Artificial Analysis Video Arena 的文生视频（Elo 1389）和图生视频（Elo 1416）两个类别中均排名第一。

谁打造了 HappyHorse 1.0？

HappyHorse 由 Alibaba 集团内部的 ATH AI 创新部门开发。该团队由张迪领导，他此前曾担任快手副总裁，是 Kling AI 背后的技术负责人。他于 2025 年底加入 Alibaba，领导淘天未来生活实验室。

HappyHorse 1.0 是否开源？

团队已表示有意将模型开源，但截至 2026 年 4 月 20 日，没有发布任何公开权重、源代码或可下载的模型文件。GitHub 仓库显示"即将推出"状态。预计最早可通过 fal.ai 等 API 提供商在 2026 年 4 月下旬获得访问权限。

HappyHorse 与 Seedance 2.0 相比如何？

在纯视觉基准测试中，HappyHorse 以显著优势领先于 Seedance 2.0：文生视频领先 115 个 Elo 分，图生视频领先约 116 个 Elo 分。当音频纳入评估时，两个模型处于统计意义上的平局（相差 2 至 5 个 Elo 分），表明 Seedance 的音频生成具有竞争力或略有优势。

HappyHorse 1.0 生成视频的速度有多快？

HappyHorse 的平均生成时间约为 10 秒，使其成为同质量级别中速度最快的模型之一。在单块 H100 GPU 上生成一个 1080p 片段约需 38 秒。这种速度使创意工作流中的快速迭代成为可能。

HappyHorse 支持哪些语言的唇同步？

HappyHorse 支持七种语言的唇同步对话：英语、普通话、粤语、日语、韩语、德语和法语。该模型为每种语言生成音素级精确的嘴部动作，而非通用的近似唇部运动。

HappyHorse 1.0 何时可以使用？

API 访问预计将在 2026 年 4 月下旬通过 fal.ai 和 Atlas Cloud 等推理平台提供。尚未公布确认的定价方案。开源权重发布已被提及但没有确认的时间表。

为什么 HappyHorse 以匿名方式发布？

ATH AI 团队在不透露 Alibaba 开发者身份的情况下将 HappyHorse 提交到 Artificial Analysis Video Arena。这确保了模型在盲评人类比较中完全基于输出质量进行评估，不受品牌偏好影响投票者的偏好。Alibaba 在初始提交后约 2 至 3 天揭示了这一关联，此时模型已经取得了第一名的排名。

关于作者
Genra AI 团队打造帮助创作者利用 AI 制作专业视频内容的工具。关注 @GenraAI 获取更新、教程和对 AI 视频领域的真诚见解。