HappyHorse 1.0: O Misterioso Modelo de Video com IA da Alibaba Que Liderou Todos os Benchmarks

Em 7 de abril de 2026, um modelo sem nome apareceu no ranking do Artificial Analysis Video Arena sem nenhum anuncio, sem equipe identificada e sem pesos publicos. Em poucos dias, alcancou o 1o lugar tanto em Text-to-Video quanto em Image-to-Video. Entao, a Alibaba se apresentou.

O Modelo Anonimo Que Quebrou o Ranking

O universo de video com IA tem um problema de ranking. Quando um laboratorio conhecido submete um modelo, a votacao da comunidade pode ser enviesada apenas pelo reconhecimento da marca. As pessoas votam pela marca tanto quanto pela qualidade do resultado. Essa dinamica vem prejudicando os benchmarks de LLM ha anos.

Em 7 de abril de 2026, alguem decidiu contornar esse problema por completo. Um modelo de video com IA apareceu no ranking do Artificial Analysis Video Arena sob um nome que ninguem reconhecia: HappyHorse. Sem comunicado a imprensa. Sem logotipo de empresa. Sem laboratorio de pesquisa associado. Apenas resultados brutos submetidos para avaliacao humana as cegas.

Em 48 horas, o HappyHorse subiu ao topo do ranking de Text-to-Video com uma classificacao Elo de 1389 — 115 pontos a frente do Seedance 2.0, o lider anterior. Em Image-to-Video, registrou um Elo de 1416, novamente em primeiro lugar. A diferenca nao era marginal. Era uma lideranca decisiva em ambas as categorias.

A comunidade de IA fez o que sempre faz: especulou. Seria o Google DeepMind testando algo? Uma startup desconhecida? Um projeto de codigo aberto que vinha treinando silenciosamente por meses?

Em 9-10 de abril de 2026, uma conta recem-criada no X (antigo Twitter) revelou a resposta. O HappyHorse 1.0 foi construido pela ATH AI Innovation Unit da Alibaba, uma nova divisao liderada por um nome que imediatamente explicou a qualidade do modelo: Zhang Di, ex-VP da Kuaishou e o arquiteto por tras do Kling AI.

O homem que construiu o Kling havia silenciosamente construido o seu substituto.

A Dramatica Historia de Origem: Do Kling AI ao HappyHorse

Para entender por que o HappyHorse e importante, e preciso entender quem o construiu e por que essa pessoa deixou sua empresa anterior para faze-lo.

Zhang Di: O Nome Mais Importante do Video com IA na China

Zhang Di atuou como Vice-Presidente da Kuaishou, uma das maiores plataformas de videos curtos da China (comparavel ao concorrente domestico do TikTok). Na Kuaishou, ele liderou o desenvolvimento do Kling AI, que se tornou um dos sistemas de geracao de video com IA mais capazes do mundo. O Kling consistentemente ocupava as primeiras posicoes nos benchmarks publicos e era amplamente reconhecido como o principal modelo chines de video com IA durante a maior parte de 2025.

Entao, no final de 2025, Zhang Di deixou a Kuaishou.

Ele ingressou no Grupo Alibaba para liderar o Taotian Future Life Lab, uma divisao de P&D sob o braco de e-commerce da Alibaba. A mudanca foi significativa, mas recebeu cobertura limitada na midia ocidental na epoca. Nos circulos de tecnologia da China, no entanto, foi entendida como uma grande aquisicao de talento. A Alibaba nao estava apenas contratando um executivo — estava adquirindo a pessoa que havia construido o melhor sistema de video com IA da China.

A Revelacao Anonima

A decisao de submeter o HappyHorse anonimamente ao Video Arena foi deliberada. Ao remover a marca da Alibaba, a equipe de Zhang Di garantiu que o desempenho do modelo seria avaliado puramente pela qualidade dos resultados. Sem efeito halo. Sem vieses pre-existentes a favor ou contra as capacidades de IA da Alibaba.

Quando a conta do X @AthAI_Official confirmou a conexao em 9-10 de abril, a revelacao teve impacto justamente porque os resultados ja estavam no ranking. O HappyHorse nao foi anunciado e depois testado. Foi testado, dominou e depois foi reivindicado.

A mensagem estrategica era clara: essa equipe consegue construir um modelo que supera todos os concorrentes em avaliacao as cegas, e fizeram isso em aproximadamente quatro meses desde a formacao da unidade.

ATH AI Innovation Unit

A ATH AI Innovation Unit parece ser uma divisao relativamente nova dentro da Alibaba, distinta do laboratorio de IA Tongyi (Qwen) ja existente na empresa. Os detalhes sobre a estrutura da unidade sao limitados, mas as capacidades do modelo sugerem uma equipe bem equipada com profunda expertise em arquiteturas de geracao de video. O nome "ATH" nao foi publicamente explicado pela Alibaba, embora possa fazer referencia a "Alibaba Taotian Holdings", a subsidiaria de e-commerce sob a qual o Taotian Future Life Lab opera.

Arquitetura Tecnica: O Que Torna o HappyHorse Diferente

O HappyHorse 1.0 nao e simplesmente uma versao maior dos modelos de video existentes. Sua arquitetura representa um avanco significativo em relacao aos pipelines multi-estagio que a maioria dos sistemas de video com IA usa atualmente.

Especificacoes Principais

Parametros: 15 bilhoes
Arquitetura: Transformer unificado com 40 camadas de auto-atencao
Design: Arquitetura de fluxo unico (video + audio gerados conjuntamente em uma unica passagem)
Resolucao: Saida nativa em 1080p HD
Velocidade de geracao: Aproximadamente 38 segundos para um clipe em 1080p em uma unica GPU H100

Geracao Unificada de Fluxo Unico

A maioria dos modelos de video com IA existentes que lidam com video e audio fazem isso com modulos separados. Um backbone de geracao de video produz os quadros visuais, e um modelo de audio separado — frequentemente usando mecanismos de atencao cruzada — gera o som correspondente. Essa abordagem multi-estagio introduz latencia, artefatos de sincronizacao e erros que se acumulam entre os fluxos visuais e de audio.

O HappyHorse adota uma abordagem fundamentalmente diferente. Sua arquitetura de fluxo unico gera video e audio conjuntamente na mesma passagem atraves de um Transformer unificado com 40 camadas de auto-atencao. Nao ha modulos de atencao cruzada conectando sub-redes visuais e de audio separadas. Em vez disso, ambas as modalidades compartilham as mesmas camadas de atencao, permitindo que o modelo aprenda representacoes conjuntas de como o conteudo visual e o som se relacionam.

O resultado pratico: movimentos labiais, sons ambientes, musica e efeitos de Foley sao gerados em sincronizacao precisa porque emergem do mesmo processo computacional, nao de dois sistemas separados tentando se manter alinhados.

15 Bilhoes de Parametros em Contexto

Com 15 bilhoes de parametros, o HappyHorse nao e o maior modelo de video existente — alguns concorrentes ultrapassam 30B de parametros — mas seu desempenho sugere que a eficiencia arquitetural importa mais do que a escala bruta. O design unificado de fluxo unico provavelmente reduz a computacao redundante que sistemas multi-modulo carregam. A profundidade de 40 camadas fornece capacidade representacional suficiente para modelagem conjunta de audio e video sem a sobrecarga de manter caminhos de atencao separados.

Para referencia, o tempo de geracao de aproximadamente 38 segundos para um clipe em 1080p em uma unica GPU H100 e competitivo. Muitos modelos comparaveis exigem multiplas GPUs ou tempos de geracao significativamente mais longos para produzir saida em resolucao equivalente.

Capacidades Principais: O Que o HappyHorse Realmente Consegue Fazer

Pontuacoes de Elo em benchmarks dizem que um modelo vence comparacoes as cegas. Nao dizem no que o modelo e especificamente bom. Com base nas demonstracoes disponiveis e divulgacoes tecnicas da equipe ATH AI, veja o que o HappyHorse 1.0 entrega.

Geracao Unificada de Audio e Video

Este e o recurso principal do HappyHorse e o mais provavel de importar comercialmente. Em uma unica passagem de geracao, o modelo produz:

Dialogo com sincronia labial precisa — Personagens falam com movimentos bucais que correspondem a forma de onda do audio em nivel de fonema, nao apenas movimentos genericos de mandibula
Som ambiente — Audio ambiental adequado a cena (ruas da cidade, natureza, espacos internos) gerado contextualmente
Musica — Musica de fundo que combina com o humor e o ritmo do conteudo visual
Efeitos de Foley — Efeitos sonoros vinculados a acoes na tela (passos, portas fechando, interacoes com objetos) sincronizados aos eventos visuais

Tudo isso acontece em uma unica passagem. Sem pipeline de pos-processamento de audio. Sem sistema TTS separado adicionado depois. As implicacoes para fluxos de trabalho de producao sao significativas: o que normalmente exige um modelo de video, um sistema de sintese de fala, uma biblioteca de Foley e um engenheiro de mixagem e condensado em uma unica etapa de geracao.

Sincronia Labial Multi-Idioma

O HappyHorse suporta dialogo com sincronia labial em sete idiomas: ingles, mandarim, cantones, japones, coreano, alemao e frances. A equipe afirma ter sincronia labial com "taxa de erro de palavras ultra-baixa" nesses idiomas, o que significa que os movimentos visuais da boca nao sao genericamente abrir-e-fechar, mas sao modelados para corresponder aos padroes foneticos especificos de cada idioma.

Isso e tecnicamente desafiador porque diferentes idiomas possuem formatos de boca dramaticamente diferentes para sons comuns. A estrutura tonal do mandarim envolve posicoes diferentes de labios e mandibula em comparacao com os clusters consonantais do ingles. O silabario do japones produz padroes de articulacao diferentes do fluxo rico em ligacoes do frances. Um modelo que lida com tudo isso em uma unica arquitetura e uma conquista nao trivial.

Consistencia de Personagens e Preservacao de Ambientes

Uma das fraquezas persistentes dos modelos de video com IA tem sido manter a aparencia consistente de personagens entre quadros e cenas. O rosto de um personagem pode mudar sutilmente, as roupas podem alterar de cor entre cortes, ou detalhes do ambiente podem derivar. O HappyHorse parece lidar com a consistencia de personagens em um nivel que torna as aplicacoes praticas viaveis:

Animacao de concept art — Forneca uma ilustracao estatica de personagem e gere video desse personagem em movimento preservando o estilo artistico original
Animacao de retratos — Anime uma fotografia estatica em um video falando ou se movendo, mantendo a identidade facial
Animacao de fotos de produtos — Pegue uma imagem estatica de produto e gere video mostrando o produto em uso, de diferentes angulos ou em ambientes contextuais

Velocidade de Geracao

O HappyHorse gera resultados em aproximadamente 10 segundos em media, tornando-o um dos modelos mais rapidos nessa faixa de qualidade. Para contexto, alguns modelos concorrentes em niveis de qualidade similares levam de 30 a 90 segundos por geracao. A velocidade importa para fluxos de trabalho criativos iterativos onde os usuarios geram multiplas variacoes antes de selecionar o resultado final.

Modos Suportados

Text-to-Video — Gere video a partir de uma descricao em texto
Image-to-Video — Anime uma imagem estatica em video
Geracao de audio — Dialogo, musica, som ambiente e efeitos de Foley gerados conjuntamente com o video

Desempenho em Benchmarks: Os Numeros em Detalhe

O Artificial Analysis Video Arena usa avaliacao humana as cegas para classificar modelos de video com IA. Os usuarios veem resultados de dois modelos anonimos lado a lado e escolhem qual preferem. Os resultados sao convertidos em classificacoes Elo — o mesmo sistema usado no xadrez — onde pontuacoes mais altas indicam que um modelo vence com mais frequencia em comparacoes diretas.

Veja como o HappyHorse 1.0 se saiu ate meados de abril de 2026.

Text-to-Video (Sem Audio)

Posicao	Modelo	Classificacao Elo	Diferenca para o 1o
1	HappyHorse 1.0	1389	--
2	Seedance 2.0	1274	-115
3	Kling 3.0	~1260	~-129

Uma diferenca de 115 pontos de Elo em uma avaliacao humana as cegas e substancial. Em termos de xadrez, e aproximadamente a diferenca entre um jogador forte de clube e um campeao regional. Significa que o HappyHorse vence a maioria das comparacoes visuais diretas contra todos os outros modelos do ranking por uma ampla margem.

Image-to-Video (Sem Audio)

Posicao	Modelo	Classificacao Elo	Diferenca para o 1o
1	HappyHorse 1.0	1416	--
2	Seedance 2.0	~1300	~-116
3	Kling 3.0	~1280	~-136

A lideranca em Image-to-Video e ainda mais pronunciada. Um Elo de 1416 e a pontuacao mais alta que qualquer modelo alcancou nesse ranking ate hoje. O Image-to-Video e provavelmente o modo mais importante comercialmente porque permite que os usuarios animem ativos existentes — fotos de produtos, concept art, storyboards — em vez de gerar inteiramente a partir de texto.

Text-to-Video (Com Audio)

Posicao	Modelo	Classificacao Elo
1	Seedance 2.0	1220
2	HappyHorse 1.0	1215

Uma diferenca de 5 pontos nesses tamanhos de amostra esta dentro da margem de erro. Isso e um empate tecnico. Ambos os modelos produzem saida audiovisual que os avaliadores humanos consideram igualmente convincente.

Image-to-Video (Com Audio)

O HappyHorse e o Seedance 2.0 estao com 2 pontos de Elo de diferenca nessa categoria — outro empate tecnico. Nenhum modelo tem uma vantagem significativa quando a qualidade do audio e considerada na avaliacao.

O Que os Benchmarks Nos Dizem

O padrao e claro: o HappyHorse domina na qualidade visual pura com liderancas decisivas em T2V e I2V sem audio. Quando o audio e adicionado a avaliacao, o Seedance 2.0 fecha a distancia ate um empate tecnico, sugerindo que o Seedance pode ter uma leve vantagem na qualidade de audio ou na sincronizacao audiovisual que compensa a vantagem visual do HappyHorse.

Para usuarios que precisam principalmente de saida visual (e adicionarao audio separadamente ou nao precisam dele), o HappyHorse e o lider claro. Para usuarios que precisam de saida integrada de audio e video, ambos os modelos sao efetivamente equivalentes nos benchmarks atuais.

HappyHorse 1.0 vs. Seedance 2.0 vs. Kling 3.0: Comparacao Direta

A ironia dessa comparacao nao pode ser subestimada. Zhang Di construiu o Kling na Kuaishou. Saiu. Construiu o HappyHorse na Alibaba. E agora o HappyHorse supera o modelo que ele originalmente criou. E o equivalente em IA de um tecnico que deixa um time campeao, vai para um rival e imediatamente ganha um titulo ainda maior.

Categoria	HappyHorse 1.0	Seedance 2.0	Kling 3.0
Desenvolvedor	Alibaba (ATH AI)	ByteDance	Kuaishou
Elo T2V (sem audio)	1389 (1o)	1274 (2o)	~1260 (3o)
Elo I2V (sem audio)	1416 (1o)	~1300 (2o)	~1280 (3o)
Elo T2V (com audio)	1215 (2o)	1220 (1o)	N/A
Elo I2V (com audio)	Empate tecnico	Empate tecnico	N/A
Parametros	15B	Nao divulgado	Nao divulgado
Arquitetura	Transformer unificado de fluxo unico	Pipeline multi-modulo	Diffusion Transformer
Resolucao nativa	1080p	1080p	1080p
Geracao de audio	Unificada (passagem unica)	Integrada (multi-modulo)	Pipeline separado
Idiomas com sincronia labial	7 (EN, ZH, Cantones, JA, KO, DE, FR)	Divulgacao limitada	2-3 confirmados
Velocidade media de geracao	~10 segundos	~30 segundos	~45 segundos
Codigo aberto	Anunciado (pesos ainda nao liberados)	Nao	Nao
Disponibilidade de API	Em breve (final de abril de 2026)	Disponivel	Disponivel
Precos	Ainda nao anunciados	Pagamento por geracao	Pagamento por geracao

O Fator Zhang Di

O elemento mais marcante dessa comparacao e o fluxo de talentos. Zhang Di passou anos na Kuaishou construindo o Kling como um sistema de video com IA de ponta. Ele entendia sua arquitetura intimamente, conhecia suas limitacoes e presumivelmente tinha ideias sobre como construir algo melhor que a estrutura organizacional ou as prioridades estrategicas da Kuaishou podem nao ter apoiado.

Na Alibaba, com recursos frescos e um mandato para construir algo novo, ele parece ter feito exatamente isso. A arquitetura unificada de fluxo unico que define o HappyHorse e uma partida filosofica da abordagem do Kling, sugerindo que as ideias de proxima geracao de Zhang Di exigiam um design do zero em vez de melhorias incrementais na base de codigo do Kling.

Esse padrao — um lider tecnico-chave deixando um laboratorio de IA e construindo um sistema superior em um concorrente — esta se tornando uma dinamica definidora da industria chinesa de video com IA. Espelha fluxos de talentos semelhantes no Vale do Silicio, mas esta acontecendo em um ritmo mais rapido e com consequencias competitivas mais imediatas.

Tres Modelos Chineses no Topo

Um fato que vale a pena afirmar claramente: os tres melhores modelos no ranking do Artificial Analysis Video Arena sao todos de empresas chinesas. HappyHorse (Alibaba), Seedance 2.0 (ByteDance) e Kling 3.0 (Kuaishou) ocupam a primeira, segunda e terceira posicoes respectivamente. Nenhum modelo ocidental ocupa atualmente uma posicao entre os tres primeiros em Text-to-Video ou Image-to-Video nesse benchmark.

Isso nao quer dizer que laboratorios ocidentais nao estejam produzindo modelos de video capazes — o Veo 2 do Google, o Sora da OpenAI e o Runway Gen-4 todos possuem capacidades notaveis. Mas em termos de classificacoes de preferencia humana as cegas, o ranking atual pertence aos laboratorios chineses de IA.

Codigo Aberto e Disponibilidade: A Distancia Entre Promessas e Realidade

O HappyHorse 1.0 foi descrito como um modelo de codigo aberto. No entanto, ate 20 de abril de 2026, a realidade nao corresponde a promessa.

O Que Foi Liberado

Pesos publicos: Nao disponiveis. Nenhum checkpoint de modelo para download foi publicado em qualquer plataforma (HuggingFace, ModelScope ou download direto).
Repositorio no GitHub: Um repositorio existe, mas mostra status de "em breve" sem codigo-fonte ou arquivos de modelo.
Artigo tecnico: Nenhum artigo revisado por pares ou relatorio tecnico detalhado foi publicado. Os detalhes tecnicos disponiveis vem de postagens em redes sociais e divulgacoes limitadas da equipe ATH AI.
Acesso via API: Ainda nao disponivel para uso publico.

O Que Esta por Vir

fal.ai tem uma pagina dedicada ao HappyHorse confirmando que o modelo esta "em breve" no final de abril de 2026. A fal.ai e uma plataforma de inferencia conhecida que fornece acesso via API a diversos modelos de IA, entao este e um indicador credivel de disponibilidade em curto prazo.
Atlas Cloud tambem esta supostamente preparando acesso via API para o HappyHorse, embora nenhuma data especifica de lancamento tenha sido confirmada.
A equipe ATH AI indicou que os pesos de codigo aberto serao liberados, mas nenhum cronograma foi comprometido.

A Questao do "Codigo Aberto"

O termo "codigo aberto" na industria de IA tornou-se cada vez mais ambiguo. Alguns modelos liberam pesos completos sob licencas permissivas (verdadeiramente abertos). Outros liberam pesos sob licencas comerciais restritivas (pesos abertos, mas nao codigo aberto pela definicao tradicional). Outros anunciam intencoes de codigo aberto, mas atrasam ou nunca cumprem.

O HappyHorse atualmente se enquadra na ultima categoria: a intencao foi declarada, mas nenhum peso ou codigo foi liberado. Isso vale a pena monitorar em vez de comemorar. Se e quando os pesos forem publicados, os termos da licenca determinarao se o HappyHorse e genuinamente de codigo aberto ou meramente de pesos abertos com restricoes comerciais.

Para fins praticos, o caminho mais provavel de curto prazo para usar o HappyHorse sera atraves de provedores de API hospedados como fal.ai e Atlas Cloud. Os precos nao foram anunciados, mas dada a dinamica competitiva no mercado de APIs de video com IA, e provavel que sejam comparaveis aos endpoints do Seedance 2.0 e Kling 3.0.

O Que Isso Significa para o Cenario de Video com IA

O surgimento do HappyHorse 1.0 traz implicacoes que vao alem de um unico modelo liderando um unico ranking.

A Aceleracao do Video com IA na China

Doze meses atras, a conversa sobre video com IA estava centrada no anuncio do Sora, no Gen-3 da Runway e na iteracao rapida da Pika. Modelos chineses existiam, mas eram geralmente vistos como competitivos em vez de dominantes. Essa dinamica se inverteu. Em abril de 2026, modelos chineses ocupam as primeiras posicoes em todos os principais benchmarks de geracao de video, e a distancia esta aumentando em vez de diminuir.

O ritmo e particularmente notavel. O HappyHorse foi da formacao da equipe (final de 2025) ao 1o lugar no ranking (abril de 2026) em aproximadamente quatro meses. Esse cronograma sugere ou uma velocidade de engenharia extraordinaria, pesquisa pre-existente significativa trazida do trabalho anterior de Zhang Di, ou ambos.

Talento como a Variavel Critica

A historia do HappyHorse ressalta uma realidade que a industria de IA as vezes subestima: modelos sao construidos por pessoas, e a movimentacao de lideres tecnicos-chave pode remodelar as dinamicas competitivas mais rapido do que qualquer quantidade de escalonamento de computacao.

A mudanca de Zhang Di da Kuaishou para a Alibaba nao e um incidente isolado. O espaco chines de video com IA tem visto um fluxo acelerado de talentos entre grandes empresas de tecnologia, startups e laboratorios academicos. Cada movimento carrega conhecimento institucional, intuicoes arquiteturais e licoes aprendidas com falhas anteriores. O resultado e um ecossistema competitivo onde nenhuma empresa pode manter uma lideranca duravel porque as pessoas que criaram essa lideranca podem sair e construir algo melhor.

Para laboratorios ocidentais de IA, essa dinamica apresenta um desafio estrategico. O ecossistema chines de video com IA nao e um unico concorrente para monitorar — e um mercado de talentos onde capacidades revolucionarias podem surgir de direcoes inesperadas a qualquer momento.

Arquitetura Unificada como o Novo Padrao

A arquitetura unificada de fluxo unico do HappyHorse para geracao conjunta de audio e video pode representar o inicio de uma mudanca arquitetural mais ampla. Se a abordagem se provar robusta a medida que mais usuarios testam o modelo, pode estabelecer um novo padrao que outros laboratorios precisarao alcancar. Pipelines multi-modulo com estagios separados de audio e video podem parecer cada vez mais como arquiteturas legadas.

Isso tem implicacoes praticas para a eficiencia do modelo. Um unico modelo unificado e mais simples de implantar, exige menos sobrecarga de infraestrutura e evita os desafios de sincronizacao que afetam sistemas multi-estagio. Para provedores de API e plataformas de nuvem, um modelo unificado e mais econômico para servir.

O Fator Velocidade

O tempo medio de geracao de aproximadamente 10 segundos do HappyHorse merece destaque. Geracao rapida nao e apenas uma conveniencia — muda fundamentalmente como as pessoas interagem com ferramentas de video com IA. Com 10 segundos por geracao, os usuarios podem iterar rapidamente: gerar um clipe, avaliar, ajustar o prompt e gerar novamente. Com 60-90 segundos por geracao, cada iteracao parece um comprometimento, e os usuarios sao menos propensos a explorar variacoes criativas.

A velocidade tambem importa para aplicacoes comerciais. Geracao de video em tempo real ou quase real abre casos de uso em producao de conteudo ao vivo, experiencias interativas e video personalizado em escala que sao impraticaveis com velocidades de geracao mais lentas.

O Que Estamos Acompanhando na Genra

Na Genra, monitoramos cada grande lancamento de modelo de video com IA porque nosso pipeline multi-modelo e projetado para direcionar cada solicitacao de geracao ao melhor modelo disponivel para aquela tarefa especifica. O desempenho do HappyHorse 1.0 nos benchmarks de qualidade visual e impressionante, e planejamos integra-lo ao nosso pipeline assim que o acesso via API estiver disponivel atraves da fal.ai ou outros provedores.

A capacidade de geracao unificada de audio e video e particularmente interessante para nossos usuarios que precisam de saida completa de video com som em uma unica etapa do fluxo de trabalho. Se a qualidade de audio do HappyHorse se mantiver em uso produtivo tao bem quanto nos benchmarks, podera reduzir o numero de estagios de pipeline necessarios para muitas tarefas comuns de geracao de video.

Principais Conclusoes

O HappyHorse 1.0 e o modelo de video com IA mais bem classificado no Artificial Analysis Video Arena, ocupando o 1o lugar em Text-to-Video (Elo 1389) e Image-to-Video (Elo 1416) sem audio. Com audio, empata tecnicamente com o Seedance 2.0 em ambas as categorias.
Construido pela ATH AI Innovation Unit da Alibaba, liderada por Zhang Di — o ex-VP da Kuaishou que construiu o Kling AI. O modelo foi da formacao da equipe ao 1o lugar no ranking em aproximadamente quatro meses.
15 bilhoes de parametros com arquitetura unificada de fluxo unico que gera video e audio conjuntamente em uma unica passagem. Sem modulos de atencao cruzada entre sub-redes separadas de audio e video.
Resolucao nativa 1080p com velocidade de geracao de ~10 segundos, tornando-o um dos modelos mais rapidos nessa faixa de qualidade. Suporta sincronia labial em 7 idiomas, incluindo ingles, mandarim, cantones, japones, coreano, alemao e frances.
Promessas de codigo aberto permanecem nao verificadas — sem pesos publicos, sem modelo para download, sem codigo publicado. Acesso via API esperado pela fal.ai e Atlas Cloud no final de abril de 2026.
Tres modelos chineses agora dominam todos os principais benchmarks: HappyHorse (Alibaba), Seedance 2.0 (ByteDance) e Kling 3.0 (Kuaishou). O fluxo de talentos entre essas empresas esta acelerando o desenvolvimento competitivo.
A arquitetura unificada de audio e video pode estabelecer um novo padrao que empurra os concorrentes a se afastarem de pipelines multi-estagio em direcao a geracao conjunta em modelo unico.

Perguntas Frequentes

O que e o HappyHorse 1.0?

O HappyHorse 1.0 e um modelo de geracao de video com IA construido pela ATH AI Innovation Unit da Alibaba. E um Transformer unificado de 15 bilhoes de parametros que gera video e audio conjuntamente em uma unica passagem. Atualmente ocupa o 1o lugar no Artificial Analysis Video Arena em Text-to-Video (Elo 1389) e Image-to-Video (Elo 1416).

Quem construiu o HappyHorse 1.0?

O HappyHorse foi desenvolvido pela ATH AI Innovation Unit dentro do Grupo Alibaba. A equipe e liderada por Zhang Di, que anteriormente atuou como Vice-Presidente da Kuaishou e foi o lider tecnico por tras do Kling AI. Ele ingressou na Alibaba no final de 2025 para liderar o Taotian Future Life Lab.

O HappyHorse 1.0 e de codigo aberto?

A equipe declarou a intencao de abrir o codigo do modelo, mas ate 20 de abril de 2026, nenhum peso publico, codigo-fonte ou arquivo de modelo para download foi liberado. O repositorio no GitHub mostra status de "em breve". O primeiro acesso disponivel e esperado via provedores de API como a fal.ai no final de abril de 2026.

Como o HappyHorse se compara ao Seedance 2.0?

O HappyHorse lidera o Seedance 2.0 por uma margem significativa nos benchmarks apenas visuais: 115 pontos de Elo a frente em Text-to-Video e aproximadamente 116 pontos a frente em Image-to-Video. Quando o audio e incluido na avaliacao, os dois modelos ficam em empate tecnico (dentro de 2-5 pontos de Elo), sugerindo que o Seedance tem geracao de audio competitiva ou ligeiramente melhor.

Qual e a velocidade do HappyHorse 1.0 para gerar video?

O HappyHorse gera resultados em aproximadamente 10 segundos em media, tornando-o um dos modelos mais rapidos em sua faixa de qualidade. Um clipe em 1080p leva cerca de 38 segundos em uma unica GPU H100. Essa velocidade permite iteracao rapida durante fluxos de trabalho criativos.

Quais idiomas o HappyHorse suporta para sincronia labial?

O HappyHorse suporta dialogo com sincronia labial em sete idiomas: ingles, mandarim, cantones, japones, coreano, alemao e frances. O modelo gera movimentos bucais precisos em nivel de fonema para cada idioma, em vez de aproximacoes genericas de movimento labial.

Quando o HappyHorse 1.0 estara disponivel para uso?

O acesso via API e esperado no final de abril de 2026 atraves de plataformas de inferencia como fal.ai e Atlas Cloud. Nenhum preco confirmado foi anunciado. A liberacao de pesos de codigo aberto foi indicada, mas nao tem cronograma confirmado.

Por que o HappyHorse foi lancado anonimamente?

A equipe ATH AI submeteu o HappyHorse ao Artificial Analysis Video Arena sem identificar a Alibaba como desenvolvedora. Isso garantiu que o modelo fosse avaliado puramente pela qualidade dos resultados em comparacoes humanas as cegas, sem que o vies de marca influenciasse as preferencias dos votantes. A Alibaba revelou a conexao aproximadamente 2-3 dias apos a submissao inicial, depois que o modelo ja havia alcancado as classificacoes de 1o lugar.

Sobre o Autor
A equipe Genra AI constroi ferramentas que ajudam criadores a produzir conteudo de video profissional usando IA. Siga @GenraAI para atualizacoes, tutoriais e opinioes honestas sobre o universo de video com IA.