HappyHorse 1.0: il misterioso modello video IA di Alibaba che ha dominato ogni benchmark
· Genra AIIl 7 aprile 2026, un modello senza nome e apparso sulla classifica dell'Artificial Analysis Video Arena senza annunci, senza team e senza pesi pubblici. In pochi giorni si e classificato al primo posto sia nel Text-to-Video che nell'Image-to-Video. Poi Alibaba si e fatta avanti.
Il modello anonimo che ha sconvolto la classifica
Il mondo dei video AI ha un problema di classifiche. Quando un laboratorio noto invia un modello, il voto della community puo essere influenzato dal solo riconoscimento del marchio. Le persone votano per il brand tanto quanto per la qualita dell'output. Una dinamica che affligge i benchmark dei modelli linguistici da anni.
Il 7 aprile 2026, qualcuno ha deciso di aggirare completamente il problema. Un modello AI video e apparso sulla classifica dell'Artificial Analysis Video Arena con un nome che nessuno conosceva: HappyHorse. Nessun comunicato stampa. Nessun logo aziendale. Nessun laboratorio di ricerca associato. Solo output grezzi inviati per la valutazione umana in cieco.
In 48 ore, HappyHorse e salito in cima alla classifica Text-to-Video con un punteggio Elo di 1389 — ben 115 punti sopra Seedance 2.0, il precedente leader. Nell'Image-to-Video ha registrato un Elo di 1416, nuovamente al primo posto. Il distacco non era marginale. Era un vantaggio netto in entrambe le categorie.
La community AI ha fatto cio che fa sempre: speculare. Era Google DeepMind a testare qualcosa? Una startup sconosciuta? Un progetto open-source che si era allenato silenziosamente per mesi?
Il 9-10 aprile 2026, un account X (ex Twitter) appena creato ha rivelato la risposta. HappyHorse 1.0 era stato costruito dalla ATH AI Innovation Unit di Alibaba, una nuova divisione guidata da un nome che spiegava immediatamente la qualita del modello: Zhang Di, ex VP di Kuaishou e architetto di Kling AI.
L'uomo che aveva costruito Kling aveva silenziosamente costruito il suo successore.
La storia drammatica delle origini: Da Kling AI a HappyHorse
Per capire perche HappyHorse e importante, bisogna capire chi lo ha costruito e perche ha lasciato la sua precedente azienda per farlo.
Zhang Di: Il nome piu importante nel video AI cinese
Zhang Di era Vice Presidente di Kuaishou, una delle piu grandi piattaforme di video brevi della Cina (paragonabile al concorrente domestico di TikTok). In Kuaishou ha guidato lo sviluppo di Kling AI, che e diventato uno dei sistemi di generazione video AI piu avanzati al mondo. Kling si e costantemente classificato ai primi posti nei benchmark pubblici ed era ampiamente considerato il principale modello cinese di video AI per la maggior parte del 2025.
Poi, alla fine del 2025, Zhang Di ha lasciato Kuaishou.
E entrato in Alibaba Group per guidare il Taotian Future Life Lab, una divisione di ricerca e sviluppo sotto il braccio e-commerce di Alibaba. La mossa era significativa ma ha ricevuto una copertura limitata nei media occidentali. Nei circoli tecnologici cinesi, pero, e stata interpretata come una grande acquisizione di talento. Alibaba non stava semplicemente assumendo un dirigente — stava acquisendo la persona che aveva costruito il miglior sistema di video AI in Cina.
La rivelazione anonima
La decisione di inviare HappyHorse in forma anonima alla Video Arena era deliberata. Eliminando il marchio Alibaba, il team di Zhang Di ha garantito che le prestazioni del modello sarebbero state valutate esclusivamente sulla qualita dell'output. Nessun effetto alone. Nessun pregiudizio preesistente a favore o contro le capacita AI di Alibaba.
Quando l'account X @AthAI_Official ha confermato il collegamento il 9-10 aprile, la rivelazione ha avuto un impatto proprio perche i risultati erano gia in classifica. HappyHorse non era stato annunciato e poi testato. Era stato testato, aveva dominato, e poi era stato rivendicato.
Il messaggio strategico era chiaro: questo team puo costruire un modello che batte ogni concorrente nella valutazione in cieco, e lo ha fatto in circa quattro mesi dalla formazione dell'unita.
ATH AI Innovation Unit
L'ATH AI Innovation Unit sembra essere una divisione relativamente nuova all'interno di Alibaba, distinta dal laboratorio AI Tongyi (Qwen) gia esistente. I dettagli sulla struttura dell'unita sono limitati, ma le capacita del modello suggeriscono un team ben finanziato con competenze approfondite nelle architetture di generazione video. Il nome "ATH" non e stato spiegato pubblicamente da Alibaba, anche se potrebbe riferirsi ad "Alibaba Taotian Holdings", la filiale e-commerce sotto la quale opera il Taotian Future Life Lab.
Architettura tecnica: Cosa rende HappyHorse diverso
HappyHorse 1.0 non e semplicemente una versione piu grande dei modelli video esistenti. La sua architettura rappresenta un distacco significativo dalle pipeline multi-stadio che la maggior parte dei sistemi di video AI utilizza oggi.
Specifiche principali
- Parametri: 15 miliardi
- Architettura: Transformer unificato a 40 livelli con self-attention
- Design: Architettura single-stream (video e audio generati congiuntamente in un singolo passaggio)
- Risoluzione: Output nativo a 1080p HD
- Velocita di generazione: Circa 38 secondi per un clip a 1080p su una singola GPU H100
Generazione unificata single-stream
La maggior parte dei modelli AI video esistenti che gestiscono sia video che audio lo fanno con moduli separati. Un backbone di generazione video produce i fotogrammi visivi, e un modello audio separato — spesso utilizzando meccanismi di cross-attention — genera il suono corrispondente. Questo approccio multi-stadio introduce latenza, artefatti di sincronizzazione e errori che si accumulano tra i flussi visivo e audio.
HappyHorse adotta un approccio fondamentalmente diverso. La sua architettura single-stream genera video e audio congiuntamente nello stesso passaggio attraverso un Transformer unificato a 40 livelli con self-attention. Non ci sono moduli di cross-attention che collegano sotto-reti visive e audio separate. Entrambe le modalita condividono gli stessi livelli di attenzione, permettendo al modello di apprendere rappresentazioni congiunte di come i contenuti visivi e il suono si relazionano tra loro.
Il risultato pratico: movimenti labiali, suoni ambientali, musica ed effetti Foley vengono generati in stretta sincronizzazione perche emergono dallo stesso processo computazionale, non da due sistemi separati che cercano di restare allineati.
15 miliardi di parametri nel contesto
Con 15 miliardi di parametri, HappyHorse non e il modello video piu grande in circolazione — alcuni concorrenti superano i 30 miliardi di parametri — ma le sue prestazioni suggeriscono che l'efficienza architetturale conta piu della scala grezza. Il design unificato single-stream probabilmente riduce la computazione ridondante che i sistemi multi-modulo portano con se. La profondita di 40 livelli fornisce una capacita rappresentazionale sufficiente per la modellazione congiunta audio-video senza il sovraccarico di mantenere percorsi di attenzione separati.
Per riferimento, il tempo di generazione di circa 38 secondi per un clip a 1080p su una singola GPU H100 e competitivo. Molti modelli comparabili richiedono piu GPU o tempi di generazione significativamente piu lunghi per produrre output a risoluzione equivalente.
Capacita principali: Cosa puo fare concretamente HappyHorse
I punteggi Elo dei benchmark indicano che un modello vince nei confronti in cieco. Non dicono in cosa il modello sia specificamente bravo. Sulla base delle dimostrazioni disponibili e delle informazioni tecniche divulgate dal team ATH AI, ecco cosa offre HappyHorse 1.0.
Generazione audio-video unificata
Questa e la caratteristica di punta di HappyHorse e quella che probabilmente avra il maggiore impatto commerciale. In un singolo passaggio di generazione, il modello produce:
- Dialogo con lip-sync preciso — I personaggi parlano con movimenti della bocca che corrispondono alla forma d'onda audio a livello di fonema, non solo un generico movimento della mascella
- Suono ambientale — Audio ambientale appropriato alla scena (strade cittadine, natura, spazi interni) generato contestualmente
- Musica — Musica di sottofondo che si adatta all'atmosfera e al ritmo del contenuto visivo
- Effetti Foley — Effetti sonori legati alle azioni sullo schermo (passi, porte che si chiudono, interazioni con oggetti) sincronizzati con gli eventi visivi
Tutto questo avviene in un singolo passaggio. Nessuna pipeline di post-produzione audio. Nessun sistema TTS separato aggiunto in seguito. Le implicazioni per i flussi di lavoro di produzione sono significative: cio che normalmente richiede un modello video, un sistema di sintesi vocale, una libreria Foley e un ingegnere del suono viene condensato in un unico passaggio di generazione.
Lip-sync multilingue
HappyHorse supporta il dialogo con sincronizzazione labiale in sette lingue: inglese, mandarino, cantonese, giapponese, coreano, tedesco e francese. Il team dichiara un "tasso di errore delle parole estremamente basso" nel lip-sync per queste lingue, il che significa che i movimenti visivi della bocca non sono genericamente aperti e chiusi ma sono modellati per corrispondere ai pattern fonetici specifici di ciascuna lingua.
Si tratta di una sfida tecnica notevole perche lingue diverse hanno forme della bocca radicalmente diverse per i suoni comuni. La struttura tonale del mandarino coinvolge posizioni di labbra e mascella diverse dai cluster consonantici dell'inglese. Il sillabario giapponese produce pattern di articolazione diversi dal flusso ricco di liaison del francese. Un modello che gestisce tutto cio in un'unica architettura e un risultato tecnico non banale.
Coerenza dei personaggi e preservazione dell'ambiente
Una delle debolezze persistenti dei modelli di video AI e stata il mantenimento di un aspetto coerente dei personaggi tra fotogrammi e scene. Il volto di un personaggio potrebbe cambiare impercettibilmente, l'abbigliamento potrebbe cambiare colore tra un taglio e l'altro, o i dettagli ambientali potrebbero variare. HappyHorse sembra gestire la coerenza dei personaggi a un livello che rende le applicazioni pratiche realizzabili:
- Animazione di concept art — Fornire un'illustrazione statica di un personaggio e generare un video di quel personaggio in movimento preservando lo stile artistico originale
- Animazione di ritratti — Animare una fotografia in un video parlante o in movimento mantenendo l'identita facciale
- Animazione di foto prodotto — Prendere un'immagine statica di un prodotto e generare un video che mostra il prodotto in uso, da diverse angolazioni o in contesti ambientali
Velocita di generazione
HappyHorse genera output in circa 10 secondi in media, rendendolo uno dei modelli piu veloci in questa fascia qualitativa. Per contesto, alcuni modelli concorrenti di qualita simile impiegano 30-90 secondi per generazione. La velocita conta per i flussi di lavoro creativi iterativi in cui gli utenti generano molteplici variazioni prima di selezionare l'output finale.
Modalita supportate
- Text-to-Video — Generare video da una descrizione testuale
- Image-to-Video — Animare un'immagine statica trasformandola in video
- Generazione audio — Dialogo, musica, suono ambientale ed effetti Foley generati congiuntamente al video
Prestazioni nei benchmark: I numeri nel dettaglio
L'Artificial Analysis Video Arena utilizza la valutazione umana in cieco per classificare i modelli di video AI. Agli utenti vengono mostrati gli output di due modelli anonimi affiancati e scelgono quale preferiscono. I risultati vengono convertiti in punteggi Elo — lo stesso sistema utilizzato negli scacchi — dove punteggi piu alti indicano un modello che vince piu frequentemente nei confronti diretti.
Ecco come si comporta HappyHorse 1.0 a meta aprile 2026.
Text-to-Video (senza audio)
| Posizione | Modello | Punteggio Elo | Distacco dal 1o |
|---|---|---|---|
| 1 | HappyHorse 1.0 | 1389 | -- |
| 2 | Seedance 2.0 | 1274 | -115 |
| 3 | Kling 3.0 | ~1260 | ~-129 |
Un distacco di 115 punti Elo in una valutazione umana in cieco e sostanziale. In termini scacchistici, equivale circa alla differenza tra un forte giocatore di circolo e un campione regionale. Significa che HappyHorse vince la maggioranza dei confronti visivi diretti contro ogni altro modello in classifica con un ampio margine.
Image-to-Video (senza audio)
| Posizione | Modello | Punteggio Elo | Distacco dal 1o |
|---|---|---|---|
| 1 | HappyHorse 1.0 | 1416 | -- |
| 2 | Seedance 2.0 | ~1300 | ~-116 |
| 3 | Kling 3.0 | ~1280 | ~-136 |
Il vantaggio nell'Image-to-Video e ancora piu marcato. Un Elo di 1416 e il punteggio piu alto mai raggiunto da qualsiasi modello su questa classifica. L'Image-to-Video e probabilmente la modalita piu importante dal punto di vista commerciale perche permette agli utenti di animare asset esistenti — foto prodotto, concept art, storyboard — piuttosto che generare interamente da testo.
Text-to-Video (con audio)
| Posizione | Modello | Punteggio Elo |
|---|---|---|
| 1 | Seedance 2.0 | 1220 |
| 2 | HappyHorse 1.0 | 1215 |
Una differenza di 5 punti a questi volumi di campionamento rientra nel margine di errore. Si tratta di un pareggio statistico. Entrambi i modelli producono output audio-visivo che i valutatori umani trovano ugualmente convincente.
Image-to-Video (con audio)
HappyHorse e Seedance 2.0 sono entro 2 punti Elo l'uno dall'altro in questa categoria — un altro pareggio statistico. Nessuno dei due modelli ha un vantaggio significativo quando la qualita audio viene inclusa nella valutazione.
Cosa ci dicono i benchmark
Lo schema e chiaro: HappyHorse domina sulla pura qualita visiva con vantaggi netti sia nel T2V che nell'I2V senza audio. Quando l'audio viene aggiunto alla valutazione, Seedance 2.0 colma il divario fino a un pareggio statistico, suggerendo che Seedance potrebbe avere un leggero vantaggio sulla qualita audio o sulla sincronizzazione audio-visiva che compensa il vantaggio visivo di HappyHorse.
Per gli utenti che necessitano principalmente di output visivo (e aggiungeranno l'audio separatamente o non ne hanno bisogno), HappyHorse e il leader indiscusso. Per gli utenti che necessitano di output audio-video integrato, entrambi i modelli sono effettivamente equivalenti nei benchmark attuali.
HappyHorse 1.0 vs. Seedance 2.0 vs. Kling 3.0: Confronto diretto
L'ironia di questo confronto non puo essere sopravvalutata. Zhang Di ha costruito Kling in Kuaishou. Se ne e andato. Ha costruito HappyHorse in Alibaba. E ora HappyHorse supera il modello che aveva originariamente creato. E l'equivalente AI di un allenatore che lascia una squadra campione, si unisce a una rivale e vince immediatamente un campionato ancora piu grande.
| Categoria | HappyHorse 1.0 | Seedance 2.0 | Kling 3.0 |
|---|---|---|---|
| Sviluppatore | Alibaba (ATH AI) | ByteDance | Kuaishou |
| Elo T2V (senza audio) | 1389 (1o) | 1274 (2o) | ~1260 (3o) |
| Elo I2V (senza audio) | 1416 (1o) | ~1300 (2o) | ~1280 (3o) |
| Elo T2V (con audio) | 1215 (2o) | 1220 (1o) | N/D |
| Elo I2V (con audio) | Pareggio statistico | Pareggio statistico | N/D |
| Parametri | 15 miliardi | Non divulgato | Non divulgato |
| Architettura | Transformer unificato single-stream | Pipeline multi-modulo | Diffusion Transformer |
| Risoluzione nativa | 1080p | 1080p | 1080p |
| Generazione audio | Unificata (singolo passaggio) | Integrata (multi-modulo) | Pipeline separata |
| Lingue lip-sync | 7 (EN, ZH, cantonese, JA, KO, DE, FR) | Informazioni limitate | 2-3 confermate |
| Velocita media di generazione | ~10 secondi | ~30 secondi | ~45 secondi |
| Open source | Dichiarato (pesi non ancora rilasciati) | No | No |
| Disponibilita API | In arrivo (fine aprile 2026) | Disponibile | Disponibile |
| Prezzi | Non ancora annunciati | Pay-per-generation | Pay-per-generation |
Il fattore Zhang Di
L'elemento piu sorprendente di questo confronto e il flusso di talenti. Zhang Di ha trascorso anni in Kuaishou costruendo Kling fino a farlo diventare un sistema di video AI di primo livello. Ne conosceva intimamente l'architettura, ne conosceva i limiti e presumibilmente aveva idee su come costruire qualcosa di migliore che la struttura organizzativa o le priorita strategiche di Kuaishou potrebbero non aver supportato.
In Alibaba, con risorse fresche e il mandato di costruire qualcosa di nuovo, sembra aver fatto esattamente questo. L'architettura unificata single-stream che definisce HappyHorse e una svolta filosofica rispetto all'approccio di Kling, suggerendo che le idee di nuova generazione di Zhang Di richiedevano un design da foglio bianco piuttosto che miglioramenti incrementali al codebase di Kling.
Questo schema — un leader tecnico chiave che lascia un laboratorio AI e costruisce un sistema superiore presso un concorrente — sta diventando una dinamica caratteristica dell'industria cinese del video AI. Rispecchia flussi di talenti simili nella Silicon Valley ma sta avvenendo a un ritmo piu veloce e con conseguenze competitive piu immediate.
Tre modelli cinesi in cima
Un fatto che vale la pena dichiarare chiaramente: i primi tre modelli nella classifica dell'Artificial Analysis Video Arena sono tutti di aziende cinesi. HappyHorse (Alibaba), Seedance 2.0 (ByteDance) e Kling 3.0 (Kuaishou) occupano rispettivamente la prima, seconda e terza posizione. Nessun modello occidentale detiene attualmente una posizione tra i primi tre ne nel Text-to-Video ne nell'Image-to-Video in questo benchmark.
Questo non significa che i laboratori occidentali non stiano producendo modelli video validi — Veo 2 di Google, Sora di OpenAI e Gen-4 di Runway hanno tutti capacita notevoli. Ma in termini di preferenza umana in cieco, la classifica attuale appartiene ai laboratori AI cinesi.
Open source e disponibilita: Il divario tra dichiarazioni e realta
HappyHorse 1.0 e stato descritto come un modello open source. Tuttavia, al 20 aprile 2026, la realta non corrisponde alla dichiarazione.
Cosa e stato rilasciato
- Pesi pubblici: Non disponibili. Nessun checkpoint del modello scaricabile e stato pubblicato su alcuna piattaforma (HuggingFace, ModelScope o download diretto).
- Repository GitHub: Esiste un repository ma mostra lo stato "coming soon" senza codice sorgente ne file del modello.
- Paper tecnico: Nessun paper sottoposto a peer review o rapporto tecnico dettagliato e stato pubblicato. I dettagli tecnici disponibili provengono da post sui social media e informazioni limitate divulgate dal team ATH AI.
- Accesso API: Non ancora disponibile per l'uso pubblico.
Cosa sta arrivando
- fal.ai ha una pagina dedicata a HappyHorse che conferma che il modello e "in arrivo" a fine aprile 2026. fal.ai e una nota piattaforma di inferenza che fornisce accesso API a vari modelli AI, quindi si tratta di un indicatore credibile di disponibilita a breve termine.
- Atlas Cloud starebbe anch'essa preparando l'accesso API per HappyHorse, anche se non e stata confermata una data di lancio specifica.
- Il team ATH AI ha indicato che i pesi open source saranno rilasciati, ma non e stata definita una tempistica precisa.
La questione "open source"
Il termine "open source" nell'industria AI e diventato sempre piu ambiguo. Alcuni modelli rilasciano i pesi completi con licenze permissive (veramente aperti). Altri rilasciano i pesi con licenze commerciali restrittive (open-weight ma non open source secondo le definizioni tradizionali). Altri ancora annunciano intenzioni open source ma ritardano o non mantengono mai la promessa.
HappyHorse attualmente rientra nell'ultima categoria: l'intenzione e stata dichiarata, ma nessun peso o codice e stato rilasciato. Questo va monitorato piuttosto che celebrato. Se e quando i pesi saranno pubblicati, i termini della licenza determineranno se HappyHorse e genuinamente open source o semplicemente open-weight con restrizioni commerciali.
Per scopi pratici, il percorso piu probabile a breve termine per utilizzare HappyHorse sara attraverso provider API ospitati come fal.ai e Atlas Cloud. I prezzi non sono stati annunciati, ma data la dinamica competitiva nel mercato delle API per video AI, e probabile che il prezzo sara comparabile agli endpoint di Seedance 2.0 e Kling 3.0.
Cosa significa per il panorama dei video AI
L'emergere di HappyHorse 1.0 comporta implicazioni che vanno oltre un singolo modello in cima a una singola classifica.
L'accelerazione del video AI cinese
Dodici mesi fa, la conversazione sui video AI era incentrata sull'annuncio di Sora, Gen-3 di Runway e l'iterazione rapida di Pika. I modelli cinesi esistevano ma erano generalmente considerati competitivi piuttosto che dominanti. Quella dinamica si e invertita. Nell'aprile 2026, i modelli cinesi detengono le prime posizioni in ogni importante benchmark di generazione video, e il divario si sta allargando anziche restringersi.
Il ritmo e particolarmente notevole. HappyHorse e passato dalla formazione del team (fine 2025) al primo posto in classifica (aprile 2026) in circa quattro mesi. Quella tempistica suggerisce o una velocita ingegneristica straordinaria, o una significativa ricerca preesistente portata dal lavoro precedente di Zhang Di, o entrambe le cose.
Il talento come variabile critica
La storia di HappyHorse sottolinea una realta che l'industria AI a volte sottovaluta: i modelli sono costruiti dalle persone, e il movimento dei leader tecnici chiave puo ridefinire le dinamiche competitive piu velocemente di qualsiasi aumento di potenza di calcolo.
Il passaggio di Zhang Di da Kuaishou ad Alibaba non e un caso isolato. Il settore cinese del video AI ha visto un flusso accelerato di talenti tra le grandi aziende tecnologiche, startup e laboratori accademici. Ogni spostamento porta con se conoscenze istituzionali, intuizioni architetturali e lezioni apprese dai fallimenti precedenti. Il risultato e un ecosistema competitivo in cui nessuna singola azienda puo mantenere un vantaggio duraturo perche le persone che hanno creato quel vantaggio potrebbero andarsene e costruire qualcosa di migliore.
Per i laboratori AI occidentali, questa dinamica presenta una sfida strategica. L'ecosistema cinese del video AI non e un singolo concorrente da monitorare — e un mercato dei talenti dove capacita rivoluzionarie possono emergere da direzioni inaspettate in qualsiasi momento.
L'architettura unificata come nuovo standard
L'architettura unificata single-stream di HappyHorse per la generazione congiunta audio-video potrebbe rappresentare l'inizio di un cambiamento architetturale piu ampio. Se l'approccio si dimostra robusto man mano che piu utenti testano il modello, potrebbe stabilire un nuovo standard che gli altri laboratori dovranno eguagliare. Le pipeline multi-modulo con stadi audio e video separati potrebbero apparire sempre piu come architetture legacy.
Questo ha implicazioni pratiche per l'efficienza dei modelli. Un singolo modello unificato e piu semplice da distribuire, richiede meno sovraccarico infrastrutturale e evita le sfide di sincronizzazione che affliggono i sistemi multi-stadio. Per i provider API e le piattaforme cloud, un modello unificato e piu economico da servire.
Il fattore velocita
Il tempo medio di generazione di HappyHorse di circa 10 secondi merita di essere sottolineato. La generazione veloce non e solo una comodita — cambia fondamentalmente il modo in cui le persone interagiscono con gli strumenti di video AI. A 10 secondi per generazione, gli utenti possono iterare rapidamente: generare un clip, valutarlo, aggiustare il prompt e generare di nuovo. A 60-90 secondi per generazione, ogni iterazione sembra un impegno, e gli utenti sono meno propensi a esplorare variazioni creative.
La velocita conta anche per le applicazioni commerciali. La generazione video in tempo reale o quasi reale apre casi d'uso nella produzione di contenuti dal vivo, esperienze interattive e video personalizzato su scala che sono impraticabili a velocita di generazione piu lente.
Cosa stiamo monitorando in Genra
In Genra, monitoriamo ogni importante rilascio di modelli di video AI perche la nostra pipeline multi-modello e progettata per indirizzare ogni richiesta di generazione verso il miglior modello disponibile per quella specifica attivita. Le prestazioni di HappyHorse 1.0 nei benchmark di qualita visiva sono impressionanti, e prevediamo di integrarlo nella nostra pipeline non appena l'accesso API sara disponibile tramite fal.ai o altri provider.
La capacita di generazione audio-video unificata e particolarmente interessante per i nostri utenti che necessitano di output video completo con audio in un singolo passaggio del flusso di lavoro. Se la qualita audio di HappyHorse tiene in produzione cosi come nei benchmark, potrebbe ridurre il numero di stadi della pipeline necessari per molte attivita comuni di generazione video.
Punti chiave
- HappyHorse 1.0 e il modello di video AI meglio classificato sull'Artificial Analysis Video Arena, occupando il primo posto sia nel Text-to-Video (Elo 1389) che nell'Image-to-Video (Elo 1416) senza audio. Con l'audio, pareggia con Seedance 2.0 in entrambe le categorie.
- Costruito dalla ATH AI Innovation Unit di Alibaba, guidata da Zhang Di — l'ex VP di Kuaishou che ha costruito Kling AI. Il modello e passato dalla formazione del team al primo posto in classifica in circa quattro mesi.
- 15 miliardi di parametri con un'architettura unificata single-stream che genera video e audio congiuntamente in un singolo passaggio. Nessun modulo di cross-attention tra sotto-reti audio e video separate.
- 1080p nativo con velocita di generazione di circa 10 secondi, rendendolo uno dei modelli piu veloci nella sua fascia qualitativa. Supporta il lip-sync in 7 lingue tra cui inglese, mandarino, cantonese, giapponese, coreano, tedesco e francese.
- Le dichiarazioni open source restano non verificate — nessun peso pubblico, nessun modello scaricabile, nessun codice pubblicato. Accesso API previsto tramite fal.ai e Atlas Cloud a fine aprile 2026.
- Tre modelli cinesi dominano ora ogni benchmark principale: HappyHorse (Alibaba), Seedance 2.0 (ByteDance) e Kling 3.0 (Kuaishou). Il flusso di talenti tra queste aziende sta accelerando lo sviluppo competitivo.
- L'architettura unificata audio-video potrebbe stabilire un nuovo standard che spingera i concorrenti ad abbandonare le pipeline multi-stadio a favore della generazione congiunta con un singolo modello.
Domande frequenti
Cos'e HappyHorse 1.0?
HappyHorse 1.0 e un modello di generazione video AI costruito dalla ATH AI Innovation Unit di Alibaba. E un Transformer unificato da 15 miliardi di parametri che genera video e audio congiuntamente in un singolo passaggio. Attualmente si classifica al primo posto sull'Artificial Analysis Video Arena sia nella categoria Text-to-Video (Elo 1389) che Image-to-Video (Elo 1416).
Chi ha costruito HappyHorse 1.0?
HappyHorse e stato sviluppato dalla ATH AI Innovation Unit all'interno di Alibaba Group. Il team e guidato da Zhang Di, che in precedenza era Vice Presidente di Kuaishou ed era il leader tecnico dietro Kling AI. E entrato in Alibaba alla fine del 2025 per guidare il Taotian Future Life Lab.
HappyHorse 1.0 e open source?
Il team ha dichiarato l'intenzione di rendere il modello open source, ma al 20 aprile 2026, nessun peso pubblico, codice sorgente o file del modello scaricabili sono stati rilasciati. Il repository GitHub mostra lo stato "coming soon". Il primo accesso disponibile e previsto tramite provider API come fal.ai a fine aprile 2026.
Come si confronta HappyHorse con Seedance 2.0?
HappyHorse supera Seedance 2.0 con un margine significativo nei benchmark solo visivi: 115 punti Elo in piu nel Text-to-Video e circa 116 punti in piu nell'Image-to-Video. Quando l'audio viene incluso nella valutazione, i due modelli sono in un pareggio statistico (entro 2-5 punti Elo), suggerendo che Seedance ha una generazione audio competitiva o leggermente migliore.
Quanto e veloce HappyHorse 1.0 nella generazione video?
HappyHorse genera output in circa 10 secondi in media, rendendolo uno dei modelli piu veloci nella sua fascia qualitativa. Un clip a 1080p richiede circa 38 secondi su una singola GPU H100. Questa velocita consente un'iterazione rapida durante i flussi di lavoro creativi.
Quali lingue supporta HappyHorse per il lip-sync?
HappyHorse supporta il dialogo con sincronizzazione labiale in sette lingue: inglese, cinese mandarino, cantonese, giapponese, coreano, tedesco e francese. Il modello genera movimenti della bocca accurati a livello di fonema per ciascuna lingua piuttosto che approssimazioni generiche del movimento labiale.
Quando sara disponibile HappyHorse 1.0?
L'accesso API e previsto a fine aprile 2026 tramite piattaforme di inferenza come fal.ai e Atlas Cloud. Non sono stati annunciati prezzi confermati. Il rilascio dei pesi open source e stato indicato ma non ha una tempistica confermata.
Perche HappyHorse e stato lanciato in forma anonima?
Il team ATH AI ha inviato HappyHorse all'Artificial Analysis Video Arena senza identificare Alibaba come sviluppatore. Questo ha garantito che il modello fosse valutato esclusivamente sulla qualita dell'output nei confronti umani in cieco, senza che il pregiudizio del marchio influenzasse le preferenze dei votanti. Alibaba ha rivelato il collegamento circa 2-3 giorni dopo la sottomissione iniziale, dopo che il modello aveva gia raggiunto il primo posto in classifica.
Informazioni sull'autore
Il team di Genra AI costruisce strumenti che aiutano i creatori a produrre contenuti video professionali utilizzando l'AI. Segui @GenraAI per aggiornamenti, tutorial e opinioni sincere sul mondo dei video AI.