AIで高CTR動画サムネイルとフックフレームを作る方法

サムネイルと最初の3秒で動画が見られるかどうかが決まります。台本も編集も仕上げも、その関門を越えて初めて意味を持ちます。本ガイドでは、CTRを安定して上げる5つのフックフレーム公式、動画ごとに6〜10の検証可能なバリアントを生むAIプロンプトテンプレート、勝者を判定するA/Bテストプラン、そして配信が静かに絞られるプラットフォームのレッドラインを解説します。

YouTube、TikTok、Instagram Reels、Shortsで、計算は残酷なほど単純です。サムネイル（または最初のフレーム）と冒頭数秒で、アルゴリズムが2回目のインプレッションを与えるかが決まります。1万インプレッションでCTR 4% = 400再生で死亡。同じ動画でCTR 9% = 900再生、ウォッチスルー信号がより強く、24時間で10万インプレッション追加。違いは動画ではなく、ほぼ常に関門です。

過去18ヶ月で変わったのは、関門が高速にテスト可能になったこと。AI生成によりバリアント制作のコストが「もう1枚デザインして祈る」から「10枚生成してデータに選ばせる」へ。これがクリエイターが実際に使っているワークフローです。

ステップ1 — フックフレームが全てを決める理由を理解する

プラットフォームは初回インプレッションで動画を表示しません。サムネイルまたは自動再生の最初のフレームを表示します。脳は約400ミリ秒でスクロール継続か停止かを決めます。

サムネイルは本の表紙ではなく、本の就職面接です。
残りの動画の仕上げは弱いフックフレームを補えません。仕上げは見られません。
同じ動画+異なる2サムネイル=統計的に異なる2動画。
「サムネイルを良くする」はプロジェクトではなく、永続的な運用規律です。

ステップ2 — 5つのフックフレーム公式から1つ使う

公式1 — リアクション顔

大きな人の顔、感情のピーク：ショック、嫌悪、喜び、困惑、恐怖。顔がフレームの30-50%。視聴者を見る目線。リアクションをアンカーする物体やテキストが1つ。

理由：顔は意識的判断より先に視覚的注意を奪います。

適：vlog、リアクション、レビュー、フード、ゲーム。

公式2 — スプリット / ビフォーアフター

縦または横のクリーンなスプリット。左：悪い/古い/予想通り。右：良い/新しい/意外。

理由：コントラストが「どうやって左から右に？」という質問を強い、質問がクリックを強います。

適：チュートリアル、変身、フィットネス、デザイン、ソフトウェアデモ。

公式3 — 大きな数字 / 大きな単語

1つの大きな数字または単語、フレームの40-60%。「￥0」「100」「禁止」「無料」。サンセリフ太字、高コントラスト。

理由：モバイルのサムネイルサイズではほとんどのテキストが読めません。1つの主役単語はどんなサイズでも読め、数字は具体性を約束します。

適：リスト、お金/金融、ニュース、how-to。

公式4 — 違和感のある画像

視覚的期待に反する画像。屋根の上の車。食べてはいけないものを食べる人。馴染みの物体が場違いな文脈に。

理由：脳は深いレベルでパターンマッチング。パターンを破る画像は潜在的な「えっ？」を引き起こします。

適：物語、ナラティブ、MrBeast風スペクタクル。注意：クリックベイト読みされやすい。

公式5 — 進捗バー / サスペンスフレーム

進行中のプロセスを示すフレーム：半分埋まったバー、0:01のタイマーで劇的なことが、ジャンプ中の人物。

理由：脳は未解決の緊張を嫌います。

適：実験、チャレンジ、劇的な中段のあるhow-to、ゲームプレイ、サイエンス。

動画ごとに1公式。その公式内で6-10バリアント。「公式1 vs 3」のテストはNG（それは2つの異なる動画）。

ステップ3 — 6-10バリアントを生むAIプロンプトテンプレート

サムネイルブリーフ

動画テーマ：[1文]
ターゲット視聴者：[1文]
プラットフォーム：[YouTube long-form / Shorts / TikTok / Reels]
アスペクト比：[16:9 long-form, 9:16 Shorts/TikTok/Reels]

フック公式：[1つだけ：リアクション顔/スプリット前後/
         大きな数字-単語/違和感画像/進捗バー]

主体アンカー：[サムネイルが中心とする1つの物または人]
感情状態：[リアクション顔の場合]
テキスト要素：[単語または数字、4文字以下推奨、最大7文字。または「なし」。]
配色ロジック：[背景+主体+テキスト。最大3色。高コントラスト。]
モバイル可読性：140px幅で判読可能。

避ける：[望まないもの]

生成：8バリアント。ポーズ、強度、角度、色強調を変える。8つで公式は一定。

「公式を一定に保つ」が最重要制約。「最大7文字」が次：モバイル140-180pxでは7文字超は判読不能。

ステップ4 — A/Bを実行（正しく読む）

YouTube long-form：YouTube StudioのTest & Compare。3バリアント。1-3週間で勝者。
Shorts / TikTok / Reels：ネイティブA/Bなし。順次：バリアントA 24時間、悪ければカバーをBに。
有料広告：2-3バリアントで本物のA/B。48時間で勝者。

3つのルール：(1) 1日目で停止しない；(2) CTRだけでなくCTR×ウォッチスルーを読む；(3) 1テストの勝者は永続的な教訓ではない。

ステップ5 — 最初の3秒にも同じロジック

TikTok、Reels、Shortsでは最初の3秒がイン-フィード視聴者にとってサムネイル相当。フレーム1は5公式の1つに合わせる。画面上テキスト最大7文字。音は思うほど重要ではない — 多くの自動再生はミュート開始。

よくある落とし穴（とレッドライン）

クリックベイト反響。動画を歪めるサムネイルはCTRを上げてウォッチスルーを潰します。アルゴリズムはこの組み合わせをより強く罰します。

過密サムネイル。「顔+テキスト+矢印+丸+グロー+ロゴ」は判読性を破壊。最大3要素。

モバイルプレビュー無視。常に140px幅で確認。

YouTubeレッドライン。2026年初に厳格化：実在公人のAI生成顔は権利なしで拒否または絞られる。

TikTok / Reelsレッドライン。AIラベルなしはAI生成コンテンツの配信が落ちます。

勝者の停滞。勝者は飽和で減衰。四半期ごとに再テスト。

Genraの位置

バリアントバッチング。1ブリーフから1セッションで8バリアント、公式とブランドライブラリを共有。
ブランドアセットライブラリ。チャンネルロゴ、配色、フォント、キャラクター参照。サムネイルごとのQAなしで一貫性。
フックフレームのエンドツーエンド。フックが3秒クリップの場合、Genraは音声、字幕、適切なアスペクト比でクリップを生成。
ブリーフファースト入力。サムネイルブリーフテンプレートが再利用可能な成果物。

Genraはカード不要で40無料クレジット — サムネイルバリアント約40またはフックフレームクリップ複数分。genra.aiから開始。

要点

サムネイルと最初の3秒がCTRを決める。
5公式：リアクション顔、スプリット、大きな数字/単語、違和感画像、進捗バー。動画ごとに1つ。
選んだ公式内で6-10バリアント。
テキスト最大7文字。140pxプレビューでテスト。
CTR×ウォッチスルーを読む。
動画フックフレームも同じ5公式。視覚で開く。
レッドラインを超えない：クリックベイト、実在公人のAI顔、AIラベル省略。
常緑動画は四半期ごとに再テスト。

よくある質問

動画ごとに何バリアントテスト？

YouTube long-form 3（Test & Compare）。Shorts/TikTok/Reels 2-3順次。広告 2-4。AI 6-10生成し最良2-3を選ぶ。

高CTRは弱い動画を補う？

1インプレッションは可。持続配信は不可 — 24時間後はウォッチスルーが主信号のため、中程度CTRより悪い。

サイズ？

YouTube long-form 1280×720。Shorts/TikTok/Reels 1080×1920。

明らかなAI見えを避けるには？

実写を主体アンカーに、実フォント、AI定型句（過剰ボケ、過彩度肌、対称過ぎる顔）回避。

YouTubeとTikTokで許可？

条件付きで許可。実在公人のAI顔は権利なし不可。TikTok/ReelsはAIラベル必須。

Genraの貢献は？

1ブリーフ8バリアント、ブランドライブラリ、フッククリップ生成。カード不要40無料クレジット。genra.aiから開始。

著者について
Genra AIチームはクリエイターと企業がAIで業務級動画を作るためのツールを構築。@GenraAI をフォロー。