HappyHorse 1.0:全ベンチマークを制覇したアリババの謎のAI動画モデル
· Genra AI2026年4月7日、Artificial Analysis Video Arenaのリーダーボードに正体不明のモデルが出現した。発表もなく、開発チームの情報もなく、公開重みもない。数日のうちにテキストから動画と画像から動画の両部門で1位を獲得。そしてアリババが名乗りを上げた。
リーダーボードを塗り替えた匿名モデル
AI動画の世界にはリーダーボード問題がある。有名な研究機関がモデルを提出すると、コミュニティの投票はブランドの知名度だけで偏る可能性がある。人々は出力品質と同じくらいブランドに投票してしまう。この問題はLLMベンチマークでも長年指摘されてきた。
2026年4月7日、誰かがその問題を完全に回避する方法を選んだ。Artificial Analysis Video Arenaのリーダーボードに、誰も知らない名前のAI動画モデルが登場した。HappyHorse。プレスリリースなし。企業ロゴなし。関連する研究機関の情報もなし。ブラインド人間評価に提出された生の出力だけがそこにあった。
48時間以内に、HappyHorseはテキストから動画のリーダーボードでEloレーティング1389に到達し、首位に立った。それまでのトップだったSeedance 2.0を115ポイントも引き離した。画像から動画ではElo 1416を記録し、こちらも1位。僅差ではなく、両部門で決定的なリードだった。
AIコミュニティはいつも通り推測を始めた。Google DeepMindが何かをテストしているのか? 誰も聞いたことのないスタートアップか? 数ヶ月間静かにトレーニングを続けていたオープンソースプロジェクトか?
2026年4月9〜10日、新しく作成されたX(旧Twitter)アカウントが答えを明かした。HappyHorse 1.0はアリババのATH AIイノベーションユニットが開発したものだった。このモデルの品質を即座に説明する名前が率いる新部門だ。張迪(Zhang Di)、元快手(Kuaishou)副社長であり、Kling AIの設計者。
Klingを作った人物が、静かにその後継モデルを作り上げていたのだ。
劇的な誕生秘話:Kling AIからHappyHorseへ
HappyHorseの重要性を理解するには、誰がこれを作り、なぜ前の会社を離れてそうしたのかを知る必要がある。
張迪:中国AI動画界で最も重要な人物
張迪は中国最大級のショート動画プラットフォームである快手(Kuaishou)の副社長を務めていた(TikTokの国内競合に相当するプラットフォーム)。快手で彼はKling AIの開発を指揮し、Klingは世界で最も優れたAI動画生成システムの一つとなった。Klingは一貫して公開ベンチマークのトップまたはそれに近い位置にランクインし、2025年を通じて中国を代表するAI動画モデルとして広く認知されていた。
そして2025年末、張迪は快手を去った。
彼はアリババグループに移り、同社のEC部門傘下のR&D組織である淘天未来生活ラボ(Taotian Future Life Lab)を率いることになった。この異動は重要なものだったが、当時の欧米メディアでの報道は限定的だった。しかし中国のテック業界では、これは大規模な人材獲得として理解されていた。アリババは単に幹部を採用したのではない。中国で最高のAI動画システムを構築した人物そのものを獲得したのだ。
匿名での公開
HappyHorseをVideo Arenaに匿名で提出するという判断は意図的なものだった。アリババのブランドを取り除くことで、張迪のチームはモデルの性能が純粋に出力品質だけで評価されることを確保した。ハロー効果なし。アリババのAI能力に対する既存のバイアスもなし。
Xアカウント@AthAI_Officialが4月9〜10日に関係を確認した際、結果がすでにボードに掲載されていたからこそ、その公表はインパクトを持った。HappyHorseは発表されてからテストされたのではない。テストされ、圧倒し、そして名乗りを上げたのだ。
戦略的なメッセージは明確だった。このチームはブラインド評価で全ての競合を打ち負かすモデルを構築でき、しかもそれをユニット設立からわずか約4ヶ月で成し遂げたということだ。
ATH AIイノベーションユニット
ATH AIイノベーションユニットはアリババ内の比較的新しい部門であり、同社の既存のTongyi(Qwen)AI研究所とは別の組織のようだ。ユニットの構造に関する詳細は限られているが、モデルの能力から見て、動画生成アーキテクチャに深い専門知識を持つ十分なリソースを備えたチームであることが示唆される。「ATH」という名前はアリババから公式に説明されていないが、淘天ホールディングス(Alibaba Taotian Holdings)を指している可能性がある。淘天未来生活ラボが属するEC子会社だ。
技術アーキテクチャ:HappyHorseの何が違うのか
HappyHorse 1.0は既存の動画モデルを単に大型化したものではない。そのアーキテクチャは、現在ほとんどのAI動画システムが採用するマルチステージパイプラインからの意味ある脱却を表している。
コア仕様
- パラメータ数:150億
- アーキテクチャ:統合型40層セルフアテンションTransformer
- 設計:シングルストリームアーキテクチャ(動画+音声を1回のフォワードパスで同時生成)
- 解像度:ネイティブ1080p HD出力
- 生成速度:1080pクリップあたり約38秒(H100 GPU 1基)
シングルストリーム統合生成
動画と音声の両方を扱う既存のAI動画モデルのほとんどは、別々のモジュールで処理を行う。動画生成バックボーンが視覚フレームを生成し、別の音声モデル(多くの場合クロスアテンション機構を使用)が対応する音声を生成する。このマルチステージアプローチは遅延、同期アーティファクト、そして視覚ストリームと音声ストリーム間のエラーの蓄積を引き起こす。
HappyHorseは根本的に異なるアプローチを採用している。そのシングルストリームアーキテクチャは、統合型40層セルフアテンションTransformerの同一フォワードパス内で動画と音声を同時に生成する。別々の視覚・音声サブネットワークを橋渡しするクロスアテンションモジュールは存在しない。代わりに、両モダリティが同じアテンション層を共有し、視覚コンテンツと音声の関係性について共同表現を学習できるようになっている。
実用的な結果:唇の動き、環境音、音楽、フォーリー効果は、すべて同じ計算プロセスから生成されるため、緊密に同期される。2つの別々のシステムが同期を維持しようとするのではなく、最初から一体として生成されるのだ。
150億パラメータの意味
150億パラメータのHappyHorseは、現存する最大の動画モデルではない。300億パラメータを超える競合もある。しかし、その性能が示唆するのは、アーキテクチャの効率性が単純な規模よりも重要だということだ。統合型シングルストリーム設計は、マルチモジュールシステムが抱える冗長な計算を削減していると考えられる。40層の深さは、別々のアテンションパスを維持するオーバーヘッドなしに、音声・動画の同時モデリングに十分な表現力を提供する。
参考として、H100 GPU 1基での1080pクリップの生成時間約38秒は競争力がある。同等解像度の出力を生成するために複数のGPUや大幅に長い生成時間を必要とする同クラスのモデルは多い。
主要機能:HappyHorseが実際にできること
ベンチマークのEloスコアは、モデルがブラインド比較で勝つことを示す。しかし、モデルが具体的に何が得意なのかは教えてくれない。ATH AIチームからの公開デモと技術情報に基づき、HappyHorse 1.0が提供する機能を以下にまとめる。
統合型音声・動画生成
これはHappyHorseの看板機能であり、商業的に最も重要になる可能性が高い。1回の生成パスで、モデルは以下を生成する:
- 精密なリップシンク付きのセリフ — キャラクターの口の動きが単なる大まかな顎の動きではなく、音素レベルで音声波形に一致する
- 環境音 — シーンに適した環境オーディオ(都市の街路、自然、室内空間)をコンテキストに応じて生成
- 音楽 — 映像コンテンツのムードとペーシングに合ったBGM
- フォーリー効果 — 画面上のアクション(足音、ドアの閉まる音、物体の操作)に連動した効果音を映像イベントにタイミングを合わせて生成
これらすべてが1回のフォワードパスで行われる。後処理の音声パイプラインなし。後付けのTTSシステムなし。制作ワークフローへの影響は大きい。通常、動画モデル、音声合成システム、フォーリーライブラリ、ミキシングエンジニアが必要とされる作業が、1回の生成ステップに集約されるのだ。
多言語リップシンク
HappyHorseは7言語でリップシンク対応のセリフをサポートする。英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語だ。チームは「超低ワードエラー率」のリップシンクをこれらの言語で実現したと主張しており、視覚的な口の動きは単なる開閉ではなく、各言語固有の音声パターンに合わせてモデリングされている。
これは技術的に困難な課題だ。異なる言語では一般的な音に対する口の形状が大きく異なる。北京語の声調構造は英語の子音クラスタとは異なる唇と顎の位置を伴う。日本語の音節体系はフランス語のリエゾンの多い流れとは異なる調音パターンを生む。これらすべてを単一のアーキテクチャで処理するモデルは、非自明な技術的成果だ。
キャラクターの一貫性と環境の保持
AI動画モデルの持続的な弱点の一つは、フレーム間やシーン間でキャラクターの外見の一貫性を維持することだった。キャラクターの顔が微妙に変化したり、カット間で服の色が変わったり、環境のディテールがドリフトしたりする。HappyHorseは実用的なアプリケーションが成立するレベルでキャラクターの一貫性を処理しているようだ:
- コンセプトアートのアニメーション化 — 静止したキャラクターイラストを提供し、元のアートスタイルを保持したままそのキャラクターが動く動画を生成
- ポートレートアニメーション — 静止した写真を、顔のアイデンティティを維持したまま、話したり動いたりする動画にアニメーション化
- 商品写真のアニメーション化 — 静止した商品画像から、商品の使用シーン、異なるアングル、コンテキストに合った環境での動画を生成
生成速度
HappyHorseは平均約10秒で出力を生成し、この品質ティアで最速クラスのモデルの一つとなっている。参考として、同等品質の競合モデルの中には1回の生成に30〜90秒かかるものもある。速度はクリエイティブワークフローにおいて重要だ。最終的な出力を選択する前に複数のバリエーションを生成する反復的な作業では、速さが大きな違いを生む。
対応モード
- テキストから動画 — テキスト記述から動画を生成
- 画像から動画 — 静止画像を動画にアニメーション化
- 音声生成 — セリフ、音楽、環境音、フォーリー効果を動画と同時に生成
ベンチマーク性能:詳細な数値
Artificial Analysis Video Arenaはブラインド人間評価でAI動画モデルをランク付けする。ユーザーには2つの匿名モデルの出力が並べて表示され、どちらが好ましいかを選択する。結果はEloレーティング(チェスで使用されるのと同じシステム)に変換され、スコアが高いほど、1対1の比較でより頻繁に勝利するモデルであることを示す。
2026年4月中旬時点でのHappyHorse 1.0のパフォーマンスを以下に示す。
テキストから動画(音声なし)
| 順位 | モデル | Eloレーティング | 1位との差 |
|---|---|---|---|
| 1 | HappyHorse 1.0 | 1389 | -- |
| 2 | Seedance 2.0 | 1274 | -115 |
| 3 | Kling 3.0 | ~1260 | ~-129 |
ブラインド人間評価で115ポイントのElo差は大きい。チェスに例えれば、これは強い地域クラブプレイヤーと地方チャンピオンほどの差に相当する。つまり、HappyHorseはリーダーボード上の他のすべてのモデルとの1対1の視覚比較で、大差をつけて大多数の対戦に勝利しているということだ。
画像から動画(音声なし)
| 順位 | モデル | Eloレーティング | 1位との差 |
|---|---|---|---|
| 1 | HappyHorse 1.0 | 1416 | -- |
| 2 | Seedance 2.0 | ~1300 | ~-116 |
| 3 | Kling 3.0 | ~1280 | ~-136 |
画像から動画でのリードはさらに顕著だ。Elo 1416はこのリーダーボードでこれまでにモデルが達成した最高スコアだ。画像から動画は商業的にはより重要なモードと言える。なぜなら、テキストから完全に生成するのではなく、商品写真、コンセプトアート、ストーリーボードといった既存のアセットをアニメーション化できるからだ。
テキストから動画(音声あり)
| 順位 | モデル | Eloレーティング |
|---|---|---|
| 1 | Seedance 2.0 | 1220 |
| 2 | HappyHorse 1.0 | 1215 |
このサンプルサイズでの5ポイントの差は誤差の範囲内だ。これは統計的に同等と見なされる。両モデルとも、人間の評価者が同程度に説得力があると感じる音声映像出力を生成している。
画像から動画(音声あり)
このカテゴリでは、HappyHorseとSeedance 2.0は2 Eloポイント以内の差であり、こちらも統計的に同等だ。音声品質を評価に含めた場合、どちらのモデルにも有意な優位性はない。
ベンチマークが示すもの
パターンは明確だ。HappyHorseは純粋な映像品質で圧倒的であり、音声なしのT2VとI2Vの両方で決定的なリードを持つ。音声が評価に加わると、Seedance 2.0が差を縮めて統計的に同等になる。これはSeedanceが音声品質または音声・映像の同期においてわずかに優位性を持ち、HappyHorseの映像面での優位性を相殺していることを示唆する。
主に映像出力が必要なユーザー(音声は別途追加するか、不要な場合)にとって、HappyHorseは明確なリーダーだ。統合された音声・動画出力が必要なユーザーにとっては、現在のベンチマークでは両モデルは実質的に同等だ。
HappyHorse 1.0 vs. Seedance 2.0 vs. Kling 3.0:直接対決
この比較の皮肉は誇張しようがない。張迪は快手でKlingを構築した。彼は去った。アリババでHappyHorseを構築した。そして今、HappyHorseは彼が元々作ったモデルを上回っている。これはAI版の「優勝チームのヘッドコーチが退任し、ライバルに移籍して、即座にさらに大きな優勝を成し遂げた」に等しい。
| カテゴリ | HappyHorse 1.0 | Seedance 2.0 | Kling 3.0 |
|---|---|---|---|
| 開発元 | アリババ(ATH AI) | ByteDance | 快手(Kuaishou) |
| T2V Elo(音声なし) | 1389(1位) | 1274(2位) | ~1260(3位) |
| I2V Elo(音声なし) | 1416(1位) | ~1300(2位) | ~1280(3位) |
| T2V Elo(音声あり) | 1215(2位) | 1220(1位) | N/A |
| I2V Elo(音声あり) | 統計的に同等 | 統計的に同等 | N/A |
| パラメータ数 | 150億 | 非公開 | 非公開 |
| アーキテクチャ | 統合型シングルストリームTransformer | マルチモジュールパイプライン | Diffusion Transformer |
| ネイティブ解像度 | 1080p | 1080p | 1080p |
| 音声生成 | 統合型(シングルパス) | 統合型(マルチモジュール) | 別パイプライン |
| リップシンク対応言語 | 7言語(EN, ZH, 広東語, JA, KO, DE, FR) | 限定的な情報開示 | 2〜3言語確認済み |
| 平均生成速度 | 約10秒 | 約30秒 | 約45秒 |
| オープンソース | 公表済み(重みは未公開) | いいえ | いいえ |
| APIの利用可否 | 近日公開(2026年4月下旬) | 利用可能 | 利用可能 |
| 価格 | 未発表 | 従量課金制 | 従量課金制 |
張迪ファクター
この比較で最も印象的な要素は人材パイプラインだ。張迪は快手でKlingをトップクラスのAI動画システムに育て上げるのに何年も費やした。彼はそのアーキテクチャを熟知し、限界を理解し、より優れたものを構築するアイデアを持っていたと推測される。それは快手の組織構造や戦略的優先事項では支援されなかったかもしれないアイデアだ。
アリババでは、新たなリソースと新しいものを構築する使命を得て、彼はまさにそれを実行したようだ。HappyHorseの特徴である統合型シングルストリームアーキテクチャは、Klingのアプローチからの哲学的転換であり、張迪の次世代のアイデアがKlingのコードベースへの段階的改善ではなく、白紙からの設計を必要としたことを示唆している。
このパターン、すなわちキーとなる技術リーダーが一つのAI研究所を去り、競合で優れたシステムを構築するという流れは、中国のAI動画業界を定義する動態になりつつある。シリコンバレーでの同様の人材流動を反映しているが、より速いペースで、より即座に競争上の帰結をもたらしている。
トップ3を占める中国モデル
率直に述べるべき事実がある。Artificial Analysis Video Arenaリーダーボードのトップ3は、すべて中国企業のモデルだ。HappyHorse(アリババ)、Seedance 2.0(ByteDance)、Kling 3.0(快手)がそれぞれ1位、2位、3位を占めている。テキストから動画、画像から動画のいずれのベンチマークでも、現在トップ3に入っている欧米のモデルはない。
欧米の研究機関が優れた動画モデルを生み出していないということではない。GoogleのVeo 2、OpenAIのSora、RunwayのGen-4はいずれも注目すべき能力を持っている。しかし、ブラインド人間嗜好ランキングにおいて、現在のリーダーボードは中国のAI研究機関が支配している。
オープンソースと利用可能性:主張と現実のギャップ
HappyHorse 1.0はオープンソースモデルとして説明されている。しかし、2026年4月20日時点では、現実はその主張と一致していない。
公開されているもの
- 公開重み:利用不可。HuggingFace、ModelScope、直接ダウンロードのいずれのプラットフォームでも、ダウンロード可能なモデルチェックポイントは公開されていない。
- GitHubリポジトリ:リポジトリは存在するが、ソースコードやモデルファイルなしの「coming soon」状態を示している。
- 技術論文:査読付き論文や詳細な技術レポートは発表されていない。利用可能な技術的詳細は、ATH AIチームのソーシャルメディア投稿と限定的な開示からのもの。
- APIアクセス:一般向けにはまだ利用不可。
今後の予定
- fal.aiにはHappyHorse専用ページがあり、モデルが2026年4月下旬に「coming soon」であることを確認している。fal.aiは様々なAIモデルへのAPIアクセスを提供する著名な推論プラットフォームであり、これは近い将来の利用可能性を示す信頼できる指標だ。
- Atlas CloudもHappyHorse向けのAPIアクセスを準備中と報じられているが、具体的なローンチ日は確認されていない。
- ATH AIチームはオープンソースの重みを公開する意向を示しているが、タイムラインは確約されていない。
「オープンソース」という問題
AI業界における「オープンソース」という用語はますます曖昧になっている。寛容なライセンスの下で完全な重みを公開するモデル(真のオープンソース)もあれば、制限的な商用ライセンスの下で重みを公開するモデル(伝統的な定義ではオープンウェイトであってオープンソースではない)もある。オープンソースの意向を発表しながら、遅延したり実行しなかったりするものもある。
HappyHorseは現在、最後のカテゴリに該当する。意向は表明されたが、重みもコードも公開されていない。これは祝うべきことではなく、注視すべき状況だ。重みが公開された場合、そのライセンス条件がHappyHorseが真にオープンソースなのか、それとも商用制限付きのオープンウェイトに過ぎないのかを決定する。
実用的には、HappyHorseを利用する最も現実的な短期的手段は、fal.aiやAtlas Cloudなどのホスト型APIプロバイダー経由になるだろう。価格は発表されていないが、AI動画APIマーケットの競争力学を考慮すると、Seedance 2.0やKling 3.0のエンドポイントと同等の価格設定になる可能性が高い。
AI動画業界への影響
HappyHorse 1.0の登場は、単一のモデルが単一のリーダーボードで首位を取ること以上の含意を持つ。
中国AI動画の加速
12ヶ月前、AI動画の議論はSoraの発表、RunwayのGen-3、Pikaの急速な改良を中心に展開されていた。中国のモデルは存在していたが、一般的には「支配的」というよりも「競争力がある」と見なされていた。その力学は逆転した。2026年4月、中国のモデルがあらゆる主要な動画生成ベンチマークでトップの座を占めており、そのギャップは縮まるどころか広がっている。
特にペースが注目に値する。HappyHorseはチーム結成(2025年末)からリーダーボード1位(2026年4月)まで、わずか約4ヶ月で到達した。このスケジュールは、驚異的なエンジニアリング速度、張迪の以前の仕事から引き継がれた重要な既存研究、またはその両方を示唆している。
決定的変数としての人材
HappyHorseのストーリーは、AI業界が時に過小評価する現実を浮き彫りにしている。モデルは人が作るものであり、キーとなる技術リーダーの移動は、どれだけの計算リソースのスケーリングよりも速く競争力学を一変させ得るということだ。
張迪の快手からアリババへの移籍は孤立した事例ではない。中国のAI動画分野では、大手テック企業、スタートアップ、学術研究機関の間での人材流動が加速している。それぞれの移動は組織的知識、アーキテクチャに関する直感、そして過去の失敗からの教訓を運ぶ。結果として生まれるのは、どの企業も持続的なリードを維持できない競争エコシステムだ。リードを生み出した人物が去り、より優れたものを構築する可能性があるからだ。
欧米のAI研究機関にとって、この動態は戦略的課題を突きつける。中国のAI動画エコシステムは追跡すべき単一の競合ではない。予期せぬ方向からいつでも画期的な能力が出現し得る人材マーケットなのだ。
新たな標準としての統合型アーキテクチャ
HappyHorseの音声・動画同時生成のためのシングルストリーム統合型アーキテクチャは、より広範なアーキテクチャ転換の始まりを示しているかもしれない。このアプローチがより多くのユーザーによるテストで堅牢であることが証明されれば、他の研究機関がマッチしなければならない新しい標準を確立する可能性がある。音声と動画のステージが分離されたマルチモジュールパイプラインは、レガシーアーキテクチャに見え始めるかもしれない。
これはモデルの効率性に実際的な影響を持つ。単一の統合型モデルはデプロイが単純で、インフラストラクチャのオーバーヘッドが少なく、マルチステージシステムを悩ませる同期の課題を回避できる。APIプロバイダーやクラウドプラットフォームにとって、統合型モデルはより費用対効果の高いサービス提供が可能だ。
速度ファクター
HappyHorseの平均約10秒の生成時間は強調に値する。高速生成は単なる利便性ではなく、人々がAI動画ツールとインタラクションする方法を根本的に変える。10秒の生成時間なら、ユーザーは迅速に反復できる。クリップを生成し、評価し、プロンプトを調整し、再度生成する。60〜90秒の生成時間では、各反復がコミットメントのように感じられ、ユーザーはクリエイティブなバリエーションを探索する可能性が低くなる。
速度は商業アプリケーションにとっても重要だ。リアルタイムまたはほぼリアルタイムの動画生成は、ライブコンテンツ制作、インタラクティブ体験、大規模なパーソナライズド動画といったユースケースを可能にする。これらは低速の生成速度では非現実的だ。
Genraが注目していること
Genraでは、すべての主要なAI動画モデルのリリースをモニタリングしている。当社のマルチモデルパイプラインは、各生成リクエストをその特定のタスクに最適なモデルにルーティングするよう設計されているからだ。HappyHorse 1.0の映像品質ベンチマークでのパフォーマンスは印象的であり、fal.aiや他のプロバイダーを通じてAPIアクセスが利用可能になり次第、パイプラインに統合する予定だ。
統合型の音声・動画生成機能は、単一のワークフローステップで音声付きの完全な動画出力を必要とするユーザーにとって特に興味深い。HappyHorseの音声品質がベンチマークと同様に実際の使用でも維持されるなら、多くの一般的な動画生成タスクに必要なパイプラインステージの数を削減できる可能性がある。
重要なポイント
- HappyHorse 1.0はトップランクのAI動画モデルであり、Artificial Analysis Video Arenaで音声なしのテキストから動画(Elo 1389)と画像から動画(Elo 1416)の両方で1位を保持。音声ありでは両カテゴリでSeedance 2.0と統計的に同等。
- アリババのATH AIイノベーションユニットが開発。張迪が率いる。元快手副社長でKling AIの生みの親。チーム結成から1位獲得まで約4ヶ月。
- 150億パラメータの統合型シングルストリームアーキテクチャで、動画と音声を1回のフォワードパスで同時生成。音声と動画のサブネットワーク間のクロスアテンションモジュールはなし。
- ネイティブ1080p、約10秒の生成速度で、この品質ティアで最速クラス。英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語の7言語リップシンクをサポート。
- オープンソースの主張は未検証。公開重みなし、ダウンロード可能なモデルなし、公開コードなし。APIアクセスは2026年4月下旬にfal.aiとAtlas Cloud経由で期待される。
- 中国の3モデルが全主要ベンチマークを支配:HappyHorse(アリババ)、Seedance 2.0(ByteDance)、Kling 3.0(快手)。これらの企業間の人材流動が競争的開発を加速させている。
- 統合型音声・動画アーキテクチャが新たな標準を確立する可能性があり、競合をマルチステージパイプラインからシングルモデルの同時生成へと移行させ得る。
よくある質問
HappyHorse 1.0とは何ですか?
HappyHorse 1.0はアリババのATH AIイノベーションユニットが開発したAI動画生成モデルです。150億パラメータの統合型Transformerで、動画と音声を1回のフォワードパスで同時に生成します。現在、Artificial Analysis Video Arenaのテキストから動画(Elo 1389)と画像から動画(Elo 1416)の両カテゴリで1位にランクインしています。
HappyHorse 1.0は誰が開発しましたか?
HappyHorseはアリババグループ内のATH AIイノベーションユニットが開発しました。チームを率いるのは張迪です。彼は以前、快手の副社長を務め、Kling AIの技術リーダーでした。2025年末にアリババに入社し、淘天未来生活ラボを率いています。
HappyHorse 1.0はオープンソースですか?
チームはモデルをオープンソース化する意向を示していますが、2026年4月20日時点で、公開重み、ソースコード、ダウンロード可能なモデルファイルは公開されていません。GitHubリポジトリは「coming soon」の状態です。最初の利用可能なアクセスは、2026年4月下旬にfal.aiなどのAPIプロバイダーを通じて提供される見込みです。
HappyHorseとSeedance 2.0はどう比較されますか?
映像のみのベンチマークでは、HappyHorseがSeedance 2.0を大幅にリードしています。テキストから動画で115 Eloポイント差、画像から動画で約116ポイント差です。音声を含む評価では、両モデルは統計的に同等(2〜5 Eloポイント以内)であり、Seedanceの音声生成が競争力があるか、わずかに優れていることを示唆しています。
HappyHorse 1.0の動画生成速度はどのくらいですか?
HappyHorseは平均約10秒で出力を生成し、この品質ティアで最速クラスのモデルの一つです。1080pクリップはH100 GPU 1基で約38秒かかります。この速度は、クリエイティブワークフローにおける迅速な反復を可能にします。
HappyHorseがリップシンクでサポートする言語は何ですか?
HappyHorseは7言語でリップシンク対応のセリフをサポートしています。英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語です。モデルは一般的な唇の動きの近似ではなく、各言語に対して音素レベルで正確な口の動きを生成します。
HappyHorse 1.0はいつ利用できますか?
APIアクセスは2026年4月下旬に、fal.aiやAtlas Cloudなどの推論プラットフォームを通じて提供される見込みです。価格は確定していません。オープンソースの重み公開は示唆されていますが、確定したタイムラインはありません。
HappyHorseはなぜ匿名でローンチされたのですか?
ATH AIチームは、アリババが開発元であることを明かさずにHappyHorseをArtificial Analysis Video Arenaに提出しました。これにより、ブランドバイアスが投票者の嗜好に影響を与えることなく、ブラインド人間比較で純粋に出力品質だけでモデルが評価されることが保証されました。アリババは初回提出から約2〜3日後、モデルがすでに1位のランキングを獲得した後に、開発元であることを公表しました。
著者について
Genra AIチームは、クリエイターがAIを使ってプロフェッショナルな動画コンテンツを制作するためのツールを開発しています。AI動画分野のアップデート、チュートリアル、率直な分析は@GenraAIをフォローしてください。