HappyHorse 1.0: El misterioso modelo de video IA de Alibaba que lideró todos los benchmarks

El 7 de abril de 2026, un modelo sin nombre apareció en la tabla de clasificación de Artificial Analysis Video Arena sin ningún anuncio, sin equipo y sin pesos públicos. En cuestión de días alcanzó el puesto #1 tanto en Text-to-Video como en Image-to-Video. Entonces Alibaba dio un paso al frente.

El modelo anónimo que rompió la tabla de clasificación

El espacio del video con IA tiene un problema con las tablas de clasificación. Cuando un laboratorio conocido envía un modelo, las votaciones de la comunidad pueden estar sesgadas solo por el reconocimiento de marca. La gente vota por la marca tanto como por el resultado. Es una dinámica que ha afectado a los benchmarks de LLM durante años.

El 7 de abril de 2026, alguien decidió eludir ese problema por completo. Un modelo de video IA apareció en la tabla de clasificación de Artificial Analysis Video Arena bajo un nombre que nadie reconocía: HappyHorse. Sin comunicado de prensa. Sin logotipo corporativo. Sin laboratorio de investigación asociado. Solo resultados crudos enviados para evaluación humana ciega.

En 48 horas, HappyHorse escaló hasta la cima de la tabla de Text-to-Video con una puntuación Elo de 1389 — 115 puntos completos por delante de Seedance 2.0, el líder anterior. En Image-to-Video, registró un Elo de 1416, de nuevo en primer lugar. La diferencia no fue marginal. Fue una ventaja decisiva en ambas categorías.

La comunidad de IA hizo lo que siempre hace: especular. ¿Era Google DeepMind probando algo? ¿Una startup que nadie conocía? ¿Un proyecto de código abierto que había estado entrenando silenciosamente durante meses?

Entre el 9 y el 10 de abril de 2026, una cuenta recién creada en X (anteriormente Twitter) reveló la respuesta. HappyHorse 1.0 fue construido por la ATH AI Innovation Unit de Alibaba, una nueva división liderada por un nombre que explicaba de inmediato la calidad del modelo: Zhang Di, exvicepresidente de Kuaishou y arquitecto detrás de Kling AI.

El hombre que construyó Kling había construido silenciosamente su reemplazo.

La dramática historia de origen: De Kling AI a HappyHorse

Para entender por qué HappyHorse importa, hay que entender quién lo construyó y por qué dejaron su empresa anterior para hacerlo.

Zhang Di: El nombre más importante del video IA chino

Zhang Di se desempeñó como vicepresidente de Kuaishou, una de las plataformas de video corto más grandes de China (comparable al competidor doméstico de TikTok). En Kuaishou, lideró el desarrollo de Kling AI, que se convirtió en uno de los sistemas de generación de video con IA más capaces del mundo. Kling se posicionó consistentemente en la cima o cerca de ella en los benchmarks públicos y fue ampliamente considerado como el modelo de video IA chino líder durante la mayor parte de 2025.

Entonces, a finales de 2025, Zhang Di dejó Kuaishou.

Se unió al Grupo Alibaba para liderar el Taotian Future Life Lab, una división de I+D bajo el brazo de comercio electrónico de Alibaba. El movimiento fue significativo pero recibió cobertura limitada en los medios occidentales en ese momento. Sin embargo, en los círculos tecnológicos de China, se entendió como una gran adquisición de talento. Alibaba no solo estaba contratando a un ejecutivo — estaba adquiriendo a la persona que había construido el mejor sistema de video IA en China.

La revelación anónima

La decisión de enviar HappyHorse de forma anónima a Video Arena fue deliberada. Al eliminar la marca Alibaba, el equipo de Zhang Di aseguró que el rendimiento del modelo sería evaluado puramente por la calidad de sus resultados. Sin efecto halo. Sin sesgos preexistentes a favor o en contra de las capacidades de IA de Alibaba.

Cuando la cuenta de X @AthAI_Official confirmó la conexión entre el 9 y el 10 de abril, la revelación tuvo impacto precisamente porque los resultados ya estaban en la tabla. HappyHorse no fue anunciado y luego probado. Fue probado, dominó y luego fue reclamado.

El mensaje estratégico fue claro: este equipo puede construir un modelo que supere a todos los competidores en evaluación ciega, y lo hicieron en aproximadamente cuatro meses desde la formación de la unidad.

ATH AI Innovation Unit

La ATH AI Innovation Unit parece ser una división relativamente nueva dentro de Alibaba, distinta del laboratorio de IA Tongyi (Qwen) existente de la empresa. Los detalles sobre la estructura de la unidad son limitados, pero las capacidades del modelo sugieren un equipo bien dotado de recursos con profunda experiencia en arquitecturas de generación de video. El nombre "ATH" no ha sido explicado públicamente por Alibaba, aunque podría referirse a "Alibaba Taotian Holdings", la filial de comercio electrónico bajo la cual opera el Taotian Future Life Lab.

Arquitectura técnica: Qué hace diferente a HappyHorse

HappyHorse 1.0 no es simplemente una versión más grande de los modelos de video existentes. Su arquitectura representa una desviación significativa de los pipelines multietapa que la mayoría de los sistemas de video IA utilizan actualmente.

Especificaciones principales

Parámetros: 15 mil millones
Arquitectura: Transformer unificado de autoatención con 40 capas
Diseño: Arquitectura de flujo único (video + audio generados conjuntamente en una sola pasada hacia adelante)
Resolución: Salida nativa en 1080p HD
Velocidad de generación: Aproximadamente 38 segundos para un clip en 1080p en una sola GPU H100

Generación unificada de flujo único

La mayoría de los modelos de video IA existentes que manejan tanto video como audio lo hacen con módulos separados. Un backbone de generación de video produce los fotogramas visuales, y un modelo de audio separado — que a menudo utiliza mecanismos de atención cruzada — genera el sonido correspondiente. Este enfoque multietapa introduce latencia, artefactos de sincronización y errores acumulados entre los flujos visual y de audio.

HappyHorse adopta un enfoque fundamentalmente diferente. Su arquitectura de flujo único genera video y audio conjuntamente dentro de la misma pasada hacia adelante a través de un Transformer unificado de autoatención con 40 capas. No hay módulos de atención cruzada que conecten subredes visuales y de audio separadas. En su lugar, ambas modalidades comparten las mismas capas de atención, lo que permite al modelo aprender representaciones conjuntas de cómo el contenido visual y el sonido se relacionan entre sí.

El resultado práctico: los movimientos labiales, los sonidos ambientales, la música y los efectos Foley se generan en sincronización precisa porque surgen del mismo proceso computacional, no de dos sistemas separados intentando mantenerse alineados.

15 mil millones de parámetros en contexto

Con 15 mil millones de parámetros, HappyHorse no es el modelo de video más grande que existe — algunos competidores superan los 30B parámetros — pero su rendimiento sugiere que la eficiencia arquitectónica importa más que la escala bruta. El diseño unificado de flujo único probablemente reduce la computación redundante que los sistemas multimódulo acarrean. La profundidad de 40 capas proporciona capacidad representacional suficiente para el modelado conjunto de audio-video sin la sobrecarga de mantener rutas de atención separadas.

Como referencia, el tiempo de generación de aproximadamente 38 segundos para un clip en 1080p en una sola H100 es competitivo. Muchos modelos comparables requieren múltiples GPUs o tiempos de generación significativamente más largos para producir resultados de resolución equivalente.

Capacidades clave: Qué puede hacer realmente HappyHorse

Las puntuaciones Elo de los benchmarks indican que un modelo gana comparaciones ciegas. No revelan en qué es específicamente bueno el modelo. Basándose en las demostraciones disponibles y las divulgaciones técnicas del equipo de ATH AI, esto es lo que HappyHorse 1.0 ofrece.

Generación unificada de audio-video

Esta es la característica estrella de HappyHorse y la que tiene más probabilidades de importar comercialmente. En una sola pasada de generación, el modelo produce:

Diálogo con sincronización labial precisa — Los personajes hablan con movimientos bucales que coinciden con la forma de onda del audio a nivel de fonema, no solo un movimiento genérico de mandíbula
Sonido ambiental — Audio ambiental apropiado para la escena (calles de la ciudad, naturaleza, espacios interiores) generado contextualmente
Música — Música de fondo que coincide con el estado de ánimo y el ritmo del contenido visual
Efectos Foley — Efectos de sonido vinculados a acciones en pantalla (pasos, puertas cerrándose, interacciones con objetos) sincronizados con los eventos visuales

Todo esto sucede en una sola pasada hacia adelante. Sin pipeline de postprocesamiento de audio. Sin sistema TTS separado añadido después. Las implicaciones para los flujos de trabajo de producción son significativas: lo que normalmente requiere un modelo de video, un sistema de síntesis de voz, una biblioteca de Foley y un ingeniero de mezcla se condensa en un solo paso de generación.

Sincronización labial multilingüe

HappyHorse soporta diálogo con sincronización labial en siete idiomas: inglés, mandarín, cantonés, japonés, coreano, alemán y francés. El equipo afirma una "tasa de error de palabras ultra baja" en la sincronización labial en todos estos idiomas, lo que significa que los movimientos visuales de la boca no son genéricamente abrir-y-cerrar, sino que están modelados para coincidir con los patrones fonéticos específicos de cada idioma.

Esto es técnicamente desafiante porque los diferentes idiomas tienen formas de boca drásticamente distintas para los sonidos comunes. La estructura tonal del mandarín involucra posiciones de labios y mandíbula diferentes a los grupos de consonantes del inglés. El silabario del japonés produce patrones de articulación diferentes al flujo lleno de enlaces del francés. Un modelo que maneja todo esto en una única arquitectura es un logro no trivial.

Consistencia de personajes y preservación del entorno

Una de las debilidades persistentes de los modelos de video IA ha sido mantener una apariencia consistente del personaje a lo largo de fotogramas y escenas. El rostro de un personaje podría cambiar sutilmente, la ropa podría cambiar de color entre tomas o los detalles del entorno podrían derivar. HappyHorse parece manejar la consistencia de personajes a un nivel que hace viables las aplicaciones prácticas:

Animación de concept art — Proporcionar una ilustración estática de un personaje y generar video de ese personaje en movimiento preservando el estilo artístico original
Animación de retratos — Animar una fotografía fija para convertirla en un video donde el personaje habla o se mueve manteniendo la identidad facial
Animación de fotos de productos — Tomar una imagen estática de un producto y generar video mostrando el producto en uso, desde diferentes ángulos o en entornos contextuales

Velocidad de generación

HappyHorse genera resultados en aproximadamente 10 segundos de media, lo que lo convierte en uno de los modelos más rápidos en este nivel de calidad. Como referencia, algunos modelos competidores de calidad similar tardan entre 30 y 90 segundos por generación. La velocidad importa para los flujos de trabajo creativos iterativos donde los usuarios generan múltiples variaciones antes de seleccionar un resultado final.

Modos compatibles

Text-to-Video — Generar video a partir de una descripción de texto
Image-to-Video — Animar una imagen estática convirtiéndola en video
Generación de audio — Diálogo, música, sonido ambiental y efectos Foley generados conjuntamente con el video

Rendimiento en benchmarks: Los números en detalle

Artificial Analysis Video Arena utiliza evaluación humana ciega para clasificar los modelos de video IA. A los usuarios se les muestran resultados de dos modelos anónimos lado a lado y eligen cuál prefieren. Los resultados se convierten en puntuaciones Elo — el mismo sistema usado en ajedrez — donde puntuaciones más altas indican un modelo que gana con más frecuencia en comparaciones directas.

Así es como HappyHorse 1.0 rinde a mediados de abril de 2026.

Text-to-Video (sin audio)

Puesto	Modelo	Puntuación Elo	Diferencia con #1
1	HappyHorse 1.0	1389	--
2	Seedance 2.0	1274	-115
3	Kling 3.0	~1260	~-129

Una diferencia de 115 puntos Elo en una evaluación humana ciega es sustancial. En términos ajedrecísticos, equivale aproximadamente a la diferencia entre un fuerte jugador de club y un campeón regional. Significa que HappyHorse gana la mayoría de las comparaciones visuales directas contra todos los demás modelos de la tabla por un margen amplio.

Image-to-Video (sin audio)

Puesto	Modelo	Puntuación Elo	Diferencia con #1
1	HappyHorse 1.0	1416	--
2	Seedance 2.0	~1300	~-116
3	Kling 3.0	~1280	~-136

La ventaja en Image-to-Video es aún más pronunciada. Un Elo de 1416 es la puntuación más alta que cualquier modelo ha alcanzado en esta tabla hasta la fecha. Image-to-Video es posiblemente el modo más importante comercialmente porque permite a los usuarios animar activos existentes — fotos de productos, concept art, storyboards — en lugar de generar enteramente desde texto.

Text-to-Video (con audio)

Puesto	Modelo	Puntuación Elo
1	Seedance 2.0	1220
2	HappyHorse 1.0	1215

Una diferencia de 5 puntos con estos tamaños de muestra está dentro del margen de error. Es un empate estadístico. Ambos modelos producen resultados audiovisuales que los evaluadores humanos encuentran igualmente convincentes.

Image-to-Video (con audio)

HappyHorse y Seedance 2.0 están dentro de 2 puntos Elo entre sí en esta categoría — otro empate estadístico. Ningún modelo tiene una ventaja significativa cuando la calidad del audio se incluye en la evaluación.

Qué nos dicen los benchmarks

El patrón es claro: HappyHorse domina en calidad visual pura con ventajas decisivas en T2V e I2V sin audio. Cuando se añade audio a la evaluación, Seedance 2.0 cierra la brecha hasta un empate estadístico, lo que sugiere que Seedance podría tener una ligera ventaja en calidad de audio o sincronización audio-visual que compensa la ventaja visual de HappyHorse.

Para los usuarios que necesitan principalmente resultados visuales (y añadirán audio por separado o no lo necesitan), HappyHorse es el líder claro. Para los usuarios que necesitan resultados integrados de audio-video, ambos modelos son efectivamente equivalentes según los benchmarks actuales.

HappyHorse 1.0 vs. Seedance 2.0 vs. Kling 3.0: Comparación directa

La ironía de esta comparación no se puede exagerar. Zhang Di construyó Kling en Kuaishou. Se fue. Construyó HappyHorse en Alibaba. Y ahora HappyHorse supera al modelo que él mismo creó originalmente. Es el equivalente en IA de un entrenador que deja un equipo campeón, se une a un rival e inmediatamente gana un campeonato mayor.

Categoría	HappyHorse 1.0	Seedance 2.0	Kling 3.0
Desarrollador	Alibaba (ATH AI)	ByteDance	Kuaishou
Elo T2V (sin audio)	1389 (#1)	1274 (#2)	~1260 (#3)
Elo I2V (sin audio)	1416 (#1)	~1300 (#2)	~1280 (#3)
Elo T2V (con audio)	1215 (#2)	1220 (#1)	N/A
Elo I2V (con audio)	Empate estadístico	Empate estadístico	N/A
Parámetros	15B	No revelado	No revelado
Arquitectura	Transformer unificado de flujo único	Pipeline multimódulo	Diffusion Transformer
Resolución nativa	1080p	1080p	1080p
Generación de audio	Unificada (pasada única)	Integrada (multimódulo)	Pipeline separado
Idiomas de sincronización labial	7 (EN, ZH, cantonés, JA, KO, DE, FR)	Divulgación limitada	2-3 confirmados
Velocidad media de generación	~10 segundos	~30 segundos	~45 segundos
Código abierto	Anunciado (pesos aún no publicados)	No	No
Disponibilidad de API	Próximamente (finales de abril 2026)	Disponible	Disponible
Precio	Aún no anunciado	Pago por generación	Pago por generación

El factor Zhang Di

El elemento más llamativo de esta comparación es el flujo de talento. Zhang Di pasó años en Kuaishou construyendo Kling hasta convertirlo en un sistema de video IA de primer nivel. Entendía su arquitectura íntimamente, conocía sus limitaciones y presumiblemente tenía ideas sobre cómo construir algo mejor que la estructura organizacional o las prioridades estratégicas de Kuaishou quizás no permitían.

En Alibaba, con recursos frescos y un mandato para construir algo nuevo, parece haber hecho exactamente eso. La arquitectura unificada de flujo único que define a HappyHorse es una desviación filosófica del enfoque de Kling, lo que sugiere que las ideas de siguiente generación de Zhang Di requerían un diseño desde cero en lugar de mejoras incrementales al código base de Kling.

Este patrón — un líder técnico clave que deja un laboratorio de IA y construye un sistema superior en un competidor — se está convirtiendo en una dinámica definitoria de la industria china de video IA. Refleja flujos de talento similares en Silicon Valley, pero está ocurriendo a un ritmo más rápido y con consecuencias competitivas más inmediatas.

Tres modelos chinos en la cima

Un hecho que vale la pena declarar claramente: los tres principales modelos en la tabla de Artificial Analysis Video Arena son todos de empresas chinas. HappyHorse (Alibaba), Seedance 2.0 (ByteDance) y Kling 3.0 (Kuaishou) ocupan la primera, segunda y tercera posición respectivamente. Ningún modelo occidental ocupa actualmente una posición entre los tres primeros en Text-to-Video o Image-to-Video en este benchmark.

Esto no quiere decir que los laboratorios occidentales no estén produciendo modelos de video capaces — Veo 2 de Google, Sora de OpenAI y Gen-4 de Runway tienen capacidades notables. Pero en cuanto a clasificaciones de preferencia humana ciega, la tabla actual pertenece a los laboratorios chinos de IA.

Código abierto y disponibilidad: La brecha entre las promesas y la realidad

HappyHorse 1.0 ha sido descrito como un modelo de código abierto. Sin embargo, a fecha de 20 de abril de 2026, la realidad no coincide con la afirmación.

Qué se ha publicado

Pesos públicos: No disponibles. No se ha publicado ningún checkpoint descargable del modelo en ninguna plataforma (HuggingFace, ModelScope o descarga directa).
Repositorio de GitHub: Existe un repositorio pero muestra el estado "coming soon" sin código fuente ni archivos del modelo.
Artículo técnico: No se ha publicado ningún artículo revisado por pares ni informe técnico detallado. Los detalles técnicos disponibles provienen de publicaciones en redes sociales y divulgaciones limitadas del equipo de ATH AI.
Acceso a la API: Aún no disponible para uso público.

Qué está por llegar

fal.ai tiene una página dedicada a HappyHorse que confirma que el modelo estará "disponible próximamente" a finales de abril de 2026. fal.ai es una plataforma de inferencia conocida que proporciona acceso a API para varios modelos de IA, por lo que es un indicador creíble de disponibilidad a corto plazo.
Atlas Cloud también está preparando acceso a la API para HappyHorse, aunque no se ha confirmado una fecha de lanzamiento específica.
El equipo de ATH AI ha indicado que los pesos de código abierto serán publicados, pero no se ha comprometido ningún cronograma.

La cuestión del "código abierto"

El término "código abierto" en la industria de la IA se ha vuelto cada vez más ambiguo. Algunos modelos publican los pesos completos bajo licencias permisivas (verdaderamente abiertos). Otros publican pesos bajo licencias comerciales restrictivas (pesos abiertos pero no código abierto según las definiciones tradicionales). Otros anuncian intenciones de código abierto pero lo retrasan o nunca lo cumplen.

HappyHorse actualmente cae en la última categoría: la intención ha sido declarada, pero no se han publicado pesos ni código. Esto merece ser monitoreado más que celebrado. Si y cuando los pesos sean publicados, los términos de la licencia determinarán si HappyHorse es genuinamente código abierto o meramente de pesos abiertos con restricciones comerciales.

Para fines prácticos, la vía más probable a corto plazo para usar HappyHorse será a través de proveedores de API alojados como fal.ai y Atlas Cloud. No se han anunciado precios, pero dada la dinámica competitiva en el mercado de APIs de video IA, es probable que tenga un precio comparable a los endpoints de Seedance 2.0 y Kling 3.0.

Qué significa esto para el panorama del video con IA

La aparición de HappyHorse 1.0 conlleva implicaciones que van más allá de un solo modelo liderando una sola tabla de clasificación.

La aceleración del video IA chino

Hace doce meses, la conversación sobre video IA estaba centrada en el anuncio de Sora, Gen-3 de Runway y la rápida iteración de Pika. Los modelos chinos existían pero generalmente eran vistos como competitivos más que dominantes. Esa dinámica se ha invertido. En abril de 2026, los modelos chinos ocupan las primeras posiciones en todos los principales benchmarks de generación de video, y la brecha se está ampliando en lugar de estrecharse.

El ritmo es particularmente notable. HappyHorse pasó de la formación del equipo (finales de 2025) al puesto #1 en la tabla (abril de 2026) en aproximadamente cuatro meses. Ese cronograma sugiere o bien una velocidad de ingeniería extraordinaria, una investigación preexistente significativa heredada del trabajo anterior de Zhang Di, o ambas cosas.

El talento como variable crítica

La historia de HappyHorse subraya una realidad que la industria de la IA a veces infravalora: los modelos son construidos por personas, y el movimiento de líderes técnicos clave puede reconfigurar las dinámicas competitivas más rápido que cualquier cantidad de escalado de computación.

El movimiento de Zhang Di de Kuaishou a Alibaba no es un incidente aislado. El espacio chino de video IA ha visto un flujo acelerado de talento entre las grandes empresas tecnológicas, startups y laboratorios académicos. Cada movimiento acarrea conocimiento institucional, intuiciones arquitectónicas y lecciones aprendidas de fracasos anteriores. El resultado es un ecosistema competitivo donde ninguna empresa puede mantener una ventaja duradera porque las personas que crearon esa ventaja podrían irse y construir algo mejor.

Para los laboratorios de IA occidentales, esta dinámica presenta un desafío estratégico. El ecosistema chino de video IA no es un solo competidor a seguir — es un mercado de talento donde las capacidades revolucionarias pueden surgir de direcciones inesperadas en cualquier momento.

La arquitectura unificada como nuevo estándar

La arquitectura unificada de flujo único de HappyHorse para la generación conjunta de audio-video podría representar el comienzo de un cambio arquitectónico más amplio. Si el enfoque demuestra ser robusto a medida que más usuarios prueban el modelo, podría establecer un nuevo estándar que otros laboratorios necesitarán igualar. Los pipelines multimódulo con etapas separadas de audio y video podrían parecer cada vez más arquitecturas heredadas.

Esto tiene implicaciones prácticas para la eficiencia de los modelos. Un modelo unificado único es más sencillo de desplegar, requiere menos infraestructura y evita los desafíos de sincronización que afectan a los sistemas multietapa. Para los proveedores de API y las plataformas en la nube, un modelo unificado es más rentable de servir.

El factor velocidad

El tiempo medio de generación de aproximadamente 10 segundos de HappyHorse merece énfasis. La generación rápida no es solo una conveniencia — cambia fundamentalmente cómo las personas interactúan con las herramientas de video IA. Con 10 segundos por generación, los usuarios pueden iterar rápidamente: generar un clip, evaluarlo, ajustar el prompt y generar de nuevo. Con 60-90 segundos por generación, cada iteración se siente como un compromiso, y los usuarios son menos propensos a explorar variaciones creativas.

La velocidad también importa para las aplicaciones comerciales. La generación de video en tiempo real o casi real abre casos de uso en producción de contenido en vivo, experiencias interactivas y video personalizado a escala que son impracticables con velocidades de generación más lentas.

Lo que estamos observando en Genra

En Genra, monitoreamos cada lanzamiento importante de modelos de video IA porque nuestro pipeline multimodelo está diseñado para dirigir cada solicitud de generación al mejor modelo disponible para esa tarea específica. El rendimiento de HappyHorse 1.0 en los benchmarks de calidad visual es impresionante, y planeamos integrarlo en nuestro pipeline una vez que el acceso a la API esté disponible a través de fal.ai u otros proveedores.

La capacidad de generación unificada de audio-video es particularmente interesante para nuestros usuarios que necesitan resultados completos de video con sonido en un solo paso de flujo de trabajo. Si la calidad de audio de HappyHorse se mantiene en el uso en producción tan bien como en los benchmarks, podría reducir el número de etapas del pipeline necesarias para muchas tareas comunes de generación de video.

Conclusiones clave

HappyHorse 1.0 es el modelo de video IA mejor clasificado en Artificial Analysis Video Arena, ocupando el puesto #1 tanto en Text-to-Video (Elo 1389) como en Image-to-Video (Elo 1416) sin audio. Con audio, empata estadísticamente con Seedance 2.0 en ambas categorías.
Construido por la ATH AI Innovation Unit de Alibaba, liderada por Zhang Di — el exvicepresidente de Kuaishou que construyó Kling AI. El modelo pasó de la formación del equipo al puesto #1 en aproximadamente cuatro meses.
15 mil millones de parámetros con una arquitectura unificada de flujo único que genera video y audio conjuntamente en una sola pasada hacia adelante. Sin módulos de atención cruzada entre subredes separadas de audio y video.
1080p nativo con velocidad de generación de ~10 segundos, lo que lo convierte en uno de los modelos más rápidos en su nivel de calidad. Soporta sincronización labial en 7 idiomas incluyendo inglés, mandarín, cantonés, japonés, coreano, alemán y francés.
Las afirmaciones de código abierto siguen sin verificar — sin pesos públicos, sin modelo descargable, sin código publicado. Se espera acceso a la API a través de fal.ai y Atlas Cloud a finales de abril de 2026.
Tres modelos chinos ahora dominan todos los principales benchmarks: HappyHorse (Alibaba), Seedance 2.0 (ByteDance) y Kling 3.0 (Kuaishou). El flujo de talento entre estas empresas está acelerando el desarrollo competitivo.
La arquitectura unificada de audio-video podría establecer un nuevo estándar que empuje a los competidores a abandonar los pipelines multietapa en favor de la generación conjunta con un modelo único.

Preguntas frecuentes

¿Qué es HappyHorse 1.0?

HappyHorse 1.0 es un modelo de generación de video con IA construido por la ATH AI Innovation Unit de Alibaba. Es un Transformer unificado de 15 mil millones de parámetros que genera video y audio conjuntamente en una sola pasada hacia adelante. Actualmente ocupa el puesto #1 en Artificial Analysis Video Arena tanto en las categorías de Text-to-Video (Elo 1389) como de Image-to-Video (Elo 1416).

¿Quién construyó HappyHorse 1.0?

HappyHorse fue desarrollado por la ATH AI Innovation Unit dentro del Grupo Alibaba. El equipo está liderado por Zhang Di, quien anteriormente fue vicepresidente de Kuaishou y el líder técnico detrás de Kling AI. Se unió a Alibaba a finales de 2025 para liderar el Taotian Future Life Lab.

¿Es HappyHorse 1.0 de código abierto?

El equipo ha declarado la intención de publicar el modelo como código abierto, pero a fecha de 20 de abril de 2026, no se han publicado pesos públicos, código fuente ni archivos descargables del modelo. El repositorio de GitHub muestra el estado "coming soon". Se espera que el primer acceso disponible sea a través de proveedores de API como fal.ai a finales de abril de 2026.

¿Cómo se compara HappyHorse con Seedance 2.0?

HappyHorse lidera frente a Seedance 2.0 por un margen significativo en los benchmarks solo visuales: 115 puntos Elo por delante en Text-to-Video y aproximadamente 116 puntos por delante en Image-to-Video. Cuando se incluye audio en la evaluación, los dos modelos están en empate estadístico (dentro de 2-5 puntos Elo), lo que sugiere que Seedance tiene una generación de audio competitiva o ligeramente mejor.

¿Qué tan rápido es HappyHorse 1.0 generando video?

HappyHorse genera resultados en aproximadamente 10 segundos de media, lo que lo convierte en uno de los modelos más rápidos en su nivel de calidad. Un clip en 1080p tarda unos 38 segundos en una sola GPU H100. Esta velocidad permite una iteración rápida durante los flujos de trabajo creativos.

¿Qué idiomas soporta HappyHorse para la sincronización labial?

HappyHorse soporta diálogo con sincronización labial en siete idiomas: inglés, chino mandarín, cantonés, japonés, coreano, alemán y francés. El modelo genera movimientos bucales precisos a nivel de fonema para cada idioma en lugar de aproximaciones genéricas de movimiento labial.

¿Cuándo estará disponible HappyHorse 1.0 para usar?

Se espera acceso a la API a finales de abril de 2026 a través de plataformas de inferencia como fal.ai y Atlas Cloud. No se han anunciado precios confirmados. La publicación de pesos de código abierto ha sido indicada pero no tiene un cronograma confirmado.

¿Por qué HappyHorse se lanzó de forma anónima?

El equipo de ATH AI envió HappyHorse a Artificial Analysis Video Arena sin identificar a Alibaba como desarrollador. Esto aseguró que el modelo fuera evaluado puramente por la calidad de sus resultados en comparaciones humanas ciegas, sin que el sesgo de marca influyera en las preferencias de los votantes. Alibaba reveló la conexión aproximadamente 2-3 días después del envío inicial, después de que el modelo ya hubiera alcanzado las clasificaciones #1.

Sobre el autor
El equipo de Genra AI crea herramientas que ayudan a los creadores a producir contenido de video profesional usando IA. Sigue a @GenraAI para actualizaciones, tutoriales y opiniones honestas sobre el espacio del video con IA.