Cómo hacer miniaturas y hook frames de alto CTR con IA

La miniatura y los primeros tres segundos deciden si tu video se ve. Todo lo demás —guion, edición, pulido— solo importa cuando se cruza esa puerta. Esta guía desglosa cinco fórmulas de hook frame que suben CTR de forma consistente, la plantilla de prompt IA que produce 6-10 variantes testeables por video, el plan de A/B test que dice cuál gana y las líneas rojas de plataforma que estrangulan distribución silenciosamente.

En YouTube, TikTok, Instagram Reels y Shorts, las matemáticas son brutales. La miniatura (o primer frame) más los segundos iniciales determinan si el algoritmo da una segunda impresión. CTR del 4% en 10K impresiones = 400 views y muere. CTR del 9% en el mismo video = 900 views, mayor señal de watch-through, 100K más impresiones en 24h. La diferencia casi nunca es el video — casi siempre es la puerta.

Lo que cambió en los últimos 18 meses: la puerta ahora es testeable rápidamente. La generación con IA bajó el costo de producir variantes de "diseña otra y reza" a "genera diez y deja que los datos elijan". Esta es la guía que los creadores realmente usan.

Paso 1 — Entiende por qué los hook frames lo deciden todo

Las plataformas no muestran el video en la primera impresión. Muestran una miniatura (YouTube long-form, portada de Shorts) o un primer frame con autoplay (TikTok, Reels, Shorts en feed). El cerebro decide en ~400ms si seguir scrolleando o detenerse.

La miniatura no es la portada del libro. Es la entrevista de trabajo del libro.
El pulido del resto del video no compensa un hook frame débil. El pulido nunca se ve.
El mismo video con dos miniaturas diferentes es estadísticamente dos videos diferentes.
"Mejores miniaturas" no es un proyecto. Es una disciplina operacional permanente.

Paso 2 — Usa una de estas cinco fórmulas de hook frame

Fórmula 1 — La cara de reacción

Una cara humana, grande en frame, capturada en pico emocional: shock, asco, alegría, confusión, miedo. La cara ocupa 30-50%. Los ojos miran al espectador. Suele haber un objeto o texto que ancla la reacción.

Por qué funciona: las caras secuestran la atención visual antes de que el cerebro consciente decida.

Mejor para: vlogs, reactions, reviews, comida, gaming.

Fórmula 2 — El split / antes-después

Un split limpio vertical u horizontal. Izquierda: estado malo/viejo/esperado. Derecha: estado bueno/nuevo/sorprendente.

Por qué funciona: el contraste fuerza una pregunta y la pregunta fuerza el clic.

Mejor para: tutoriales, transformaciones, fitness, diseño, demos de software.

Fórmula 3 — El gran número / la gran palabra

Un número o palabra grande, 40-60% del frame. "$0", "100", "PROHIBIDO", "GRATIS". Sans-serif negrita, alto contraste.

Por qué funciona: en tamaño de miniatura en móvil, casi todo el texto es ilegible. Una palabra dominante se lee a cualquier tamaño; un número promete especificidad.

Mejor para: listas, finanzas, noticias, how-to, cualquier cosa cuantificable.

Fórmula 4 — La imagen que se ve mal

Una imagen que viola una expectativa visual. Coche en el techo de una casa. Persona comiendo algo que no debería. Objeto familiar en contexto extraño.

Por qué funciona: el cerebro hace pattern-matching profundo. Una imagen que rompe el patrón dispara un "¿qué?" subconsciente.

Mejor para: historias, narrativas, espectáculo estilo MrBeast. Cuidado: la más propensa a leerse como clickbait.

Fórmula 5 — La barra de progreso / frame de suspense

Un frame que implica un proceso en curso: barra a la mitad, cronómetro en 0:01 con algo dramático, persona en pleno salto.

Por qué funciona: el cerebro odia la tensión sin resolver.

Mejor para: experimentos, retos, how-tos con punto medio dramático, gameplay, ciencia.

Una fórmula por video. 6-10 variantes dentro de esa fórmula. No "Fórmula 1 vs 3" — eso son dos videos distintos.

Paso 3 — La plantilla de prompt para 6-10 variantes

BRIEF DE MINIATURA

Tema del video: [una frase — de qué va realmente]
Espectador objetivo: [una frase — para quién es]
Plataforma: [YouTube long-form / Shorts / TikTok / Reels]
Aspecto: [16:9 long-form, 9:16 Shorts/TikTok/Reels]

Fórmula de hook: [solo una: cara reacción / split antes-después /
                gran número-palabra / imagen rara / barra de suspense]

Anclaje del sujeto: [la cosa o persona específica en el centro]
Estado emocional: [si cara reacción — shock / asco / alegría / confusión / miedo]
Elemento de texto: [palabra o número, máx 4 caracteres preferible,
                    máx 7 absoluto. O "ninguno".]
Lógica de color: [fondo + sujeto + texto. Tres colores máx. Alto contraste.]
Verificación móvil: legible a 140px de ancho.

Evitar: [lo que no quieras]

Generar: 8 variantes. Variar pose, intensidad, ángulo, énfasis de color.
Mantener la fórmula constante en las 8.

"Mantener la fórmula constante" es el constraint más importante — hace el test interpretable. "Máx 7 caracteres absoluto" es el segundo: a 140-180px en móvil, más de 7 caracteres es ilegible.

Paso 4 — Ejecuta el A/B (y léelo bien)

YouTube long-form: Test & Compare en YouTube Studio. 3 variantes. Ganador en 1-3 semanas.
Shorts / TikTok / Reels: sin A/B nativo. Secuencial: variante A 24h, si va mal cambias portada a B. Bandit secuencial.
Anuncios pagados: A/B real con 2-3 variantes. Ganador en 48h.

Tres reglas: (1) no pares en día 1; (2) lee CTR × watch-through, no CTR solo; (3) el ganador de un test no es lección permanente.

Paso 5 — La misma lógica para los primeros 3 segundos

En TikTok, Reels y Shorts, los primeros 3 segundos son el equivalente miniatura. Frame 1 debe encajar con una fórmula. Los 3 segundos plantean una pregunta. Texto en pantalla máx 7 caracteres. El sonido importa menos — la mayoría de autoplay empieza en mute.

Errores comunes (y líneas rojas)

Reverberación de clickbait. Una miniatura que tergiversa el video sube CTR una impresión y hunde watch-through. El algoritmo penaliza esa combinación más fuerte.

Miniaturas sobrecargadas. "Cara + texto + flecha + círculo + brillo + logo" destruye legibilidad. Tres elementos máx.

Ignorar la vista previa móvil. Siempre verifica a 140px.

Líneas rojas YouTube. A inicios de 2026 endurecieron: caras IA de figuras públicas reales sin derechos pueden bloquear o limitar.

Líneas rojas TikTok / Reels. Sin etiqueta de IA, contenido significativamente IA-generado pierde distribución.

Estancarse en un ganador. Los ganadores decaen. Re-test trimestral.

Cómo encaja Genra

Lotes de variantes. 8 variantes por brief en una sesión, compartiendo fórmula y biblioteca de marca.
Biblioteca de marca. Logo, paleta, fuente, referencia de personaje. Consistencia sin QA por miniatura.
Loop end-to-end para hook frames. Cuando el hook es un clip de 3 segundos, Genra lo produce con audio, subtítulos y aspecto correcto.
Input brief-first. La plantilla es un artefacto reutilizable.

Genra ofrece 40 créditos gratis sin tarjeta. Empieza en genra.ai.

Puntos clave

Miniatura y primeros 3 segundos deciden CTR.
Cinco fórmulas: cara reacción, split, gran número/palabra, imagen rara, barra de suspense. Una por video.
6-10 variantes dentro de la fórmula.
Texto máx 7 caracteres. Test a 140px.
Lee CTR × watch-through.
Los hook frames de video siguen las mismas fórmulas. Apertura visual.
No cruces líneas rojas: clickbait, caras IA de personas reales sin derechos, omitir etiqueta IA.
Re-test trimestral.

Preguntas frecuentes

¿Cuántas variantes testear?

YouTube long-form 3 (Test & Compare). Shorts/TikTok/Reels 2-3 secuenciales. Ads 2-4. La IA genera 6-10 para elegir las mejores 2-3.

¿CTR alto compensa video débil?

Una impresión sí. Distribución sostenida no — peor que CTR moderado, porque watch-through domina tras 24h.

¿Tamaños?

YouTube long-form 1280×720. Shorts/TikTok/Reels 1080×1920. Diseñar al tamaño nativo.

¿Cómo evitar que se vea IA?

Foto real como anclaje, fuente real, evitar clichés IA (bokeh excesivo, piel sobresaturada, simetría rara).

¿Permitidas en YouTube/TikTok?

Sí, con caveats. Sin caras IA de figuras públicas reales sin derechos. Etiqueta IA obligatoria en TikTok/Reels.

¿Cómo ayuda Genra?

8 variantes por brief, biblioteca de marca, generación de hook clips. 40 créditos gratis sin tarjeta. Empieza en genra.ai.

Sobre el autor
El equipo de Genra AI construye herramientas para que creadores y empresas produzcan video profesional con IA. Sigue a @GenraAI.