AI 视频脚本 Hook 公式：广告、教程、故事三类视频的开场 3 秒模板

AI 视频前 3 秒决定后面 30 秒会不会被看完。本文给出 15 个 hook 公式——广告 5 个、教程 5 个、故事 5 个，每条都附结构、AI 视频 prompt，以及它真正能拉动的指标。

但凡你在 2026 年看过任何视频后台数据，残酷的算术就摆在面前：大约一半观众在前 3 秒离开。在抖音、TikTok 和 Reels 上更陡峭——如果开场没钩住，65% 的人在第 3 秒前就已经划走。视频后面所有的努力，都被这前 3 秒乘以一个倍数（或者直接乘以零）。

大多数创作者的本能——包括用 AI 视频工具的人——是把大量精力花在主体内容上，把开场当作「介绍」。这是反过来了。开场是整段视频里杠杆率最高的 3 秒。开场对了，留存曲线就拉平；开场错了，跳出率会让你后面所有工作都变得不可见。

本文是一份可工作的 hook 公式库：15 个 hook 公式，按视频类型组织。AI 创作者最常出片的三类格式各 5 个：广告（付费投放、转化向素材）、教程（how-to、解释类、教学）、故事（叙事、品牌、生活方式）。每条公式给出结构、对应的 AI 视频 prompt、适用主题，以及它真正能拉动的指标。

这些都不是理论。它们是从过去 18 个月在抖音、TikTok、Reels、Shorts 和付费社媒上分析数百万条高完播视频中提取出的模式。同样的模式适用于真人拍摄、Premiere 剪辑、AI agent 生成——三类视频都通用。

为什么前 3 秒决定一切

3 秒不是个随便设的数字，它是现代社交平台衡量价值方式的产物：

抖音 / TikTok 用「视频完播率」信号，对早期跳出加权很重。第 3 秒就划走，等于直接告诉算法这个内容失败了。
Meta（Reels & Stories）看 ThruPlay 但权重在平均观看时长。前 3 秒掉粉的视频在分发和广告成本上都被惩罚。
YouTube Shorts 看平均观看时长。前 3 秒就是曲线断崖的地方。
付费投放在每个平台都给你一张快速留存图。第 3 秒的悬崖，就是赢家广告和输家广告的分界线。

对 AI 视频还有额外一层。2026 年的观众已经被训练得能一眼认出「AI 感」内容并把它整体划过。你的 hook 不只在抢注意力——它还在抢先压住「这是 AI 渣内容」的本能反应。一个强 hook 能在观众真正开始评估质量之前，多换来 7 秒的耐心。

Hook 必须做的 3 件事

停止滑动。用视觉或听觉的模式中断打断自动滑动的本能行为。
承诺回报。明确传递「再看 20–30 秒会值得」。
匹配格式。广告 hook 承诺利益。教程 hook 承诺学到东西。故事 hook 承诺情感弧线。

下面每条公式都是同时做这三件事的不同方式。

广告类视频 5 个 hook 公式

广告 hook 必须做另外两类不需要做的事：在 3 秒内把产品或问题端上台面。你没时间搭故事弧线。你只有时间——要么把痛点说得精准到让目标用户觉得「被看见」，要么给出一个具体到让人想知道「怎么做到的」的承诺。

A1. 精确痛点钩

结构：说出目标用户在过去 24 小时里真切体验过的一个超具体的痛点。

句式：「如果你也曾经[具体小痛点]……」

例：「如果你也曾为一段 30 秒的视频花 40 分钟挑背景音乐，这个视频是给你的。」

AI prompt：「一个挫败的创作者翻找音乐库的近景，肩膀垮下，环境光昏暗，前 2 秒里旁白说出具体痛点。」

适合：效率工具、SaaS、agency。拉动：CTR、安装率。

A2. 具体大承诺钩

结构：具体到时间和数字的明确成果。

句式：「[具体结果] 在 [具体时间] 内完成，无需 [常见门槛]。」

例：「4 分钟内做出一支 30 秒的成片产品视频。不剪辑，不写脚本。」

AI prompt：「分屏：左边一个秒表从 4:00 倒数到 0:00，右边一个产品视频实时一镜一镜组装出来。明亮高能的色调。」

适合：消费类 app、电商、任何成果可量化的产品。拉动：CTR、转化率。

A3. 模式中断钩

结构：用一个视觉或语言上的反预期画面，打破观众预期看到的东西。

句式：把整段视频里最反常识、最意外的瞬间放到开头。

例：吸尘器广告开场是一个全景：有人故意把咖啡泼到白色地毯上。

AI prompt：「广角静止镜头，白色客厅地毯，咖啡杯在第一秒慢动作翻倒，深色污渍蔓延。无旁白，仅环境音。」

适合：快消、家居、产品演示。拉动：3 秒留存、观看时长。

A4. 反向钩（Negation）

结构：告诉观众不要做大家都在做的事。否定式比肯定式制造好奇心更快。

句式：「先别 [常见行为]，看完这条再说。」

例：「先别写下一个 AI 视频 prompt——看完这 20 秒再写。」

AI prompt：「直对镜头中景，创作者举手做「停」的手势，目光锐利地直视镜头，身体微微前倾，纯色背景，正面硬光。」

适合：教育、工具、任何「替代方案是糟糕的」的场景。拉动：观看时长、转发率。

A5. 社会证明钩

结构：用别人拿到的具体可信结果开场。数字和身份比形容词管用。

句式：「[具体身份] 用 [产品] 做到了 [具体成果]。」

例：「三家 Shopify 店主用 AI 做的广告 ROAS 做到 8 倍。我们看看他们到底做了什么不一样的事。」

AI prompt：「三联画构图：三个分屏，每个展示一位店主在自己的工作环境里，柔和自然光，屏幕文字打出每个人的 ROAS 数字。」

适合：B2B、agency、课程、任何可信度敏感的场景。拉动：留资率、转化率。

教程类视频 5 个 hook 公式

教程 hook 是另一份工作。观众来这里是为了学东西。你不用说服他们想要回报——你要快速证明回报存在、你能交付，并且这条值得他们投入时间，胜过他们本来可以点开的另外十几条教程。

T1. 结果先示钩

结构：解释什么之前，先把成品摆出来。

句式：「这是我们要做的东西。接下来教你怎么做。」

例：2 秒成品快闪，紧接着「接下来 90 秒里，我会一步一步教你做出这个。」

AI prompt：「开场 2 秒高质量成品预览，硬切到一个干净的工作室场景里直对镜头的创作者，手里拿着一台显示同一成品的平板。」

适合：设计、视频、代码、菜谱——任何视觉类内容。拉动：平均观看时长、点赞率。

T2. 误区钩

结构：说出观众正在犯的、但他们自己没意识到的错。

句式：「大多数人都在 [常见做法]。这正是 [结果] 不好的原因。」

例：「大多数创作者把 AI 视频 prompt 写成一大段长段落。这正是他们生成的镜头看起来都差不多的原因。这里是修法。」

AI prompt：「左右对比：左侧一段乱糟糟的长段落 prompt 文字，右侧一段干净结构化的 prompt 格式。右侧轻微推进。」

适合：教育、专家内容、任何观众已经有习惯的领域。拉动：观看时长、收藏率。

T3. 权威钩

结构：开场就建立可信度，再承诺一个具体的学习点。

句式：「我做过 [具体经验]。下面是我希望自己当时就懂的 [框架 / 系统 / 误区]。」

例：「我做过 200 多支 AI 生成的广告素材。下面是 3 个一直跑赢其他 hook 的开场公式。」

AI prompt：「中近景直对镜头，创作者在采光良好的家庭办公空间，背景能看到书或工作器物，沉稳自信地讲话。」

适合：专业内容、B2B、专业服务。拉动：留资、转粉。

T4. 捷径钩

结构：承诺最快达到结果的路径。

句式：「[结果] 的最快做法。不需要 [常见慢方法]。」

例：「转化率最高的产品视频的最快做法。不要相机，不要演员，不要剪辑软件。」

AI prompt：「延时风格的成片组装，屏幕上的计时器从一个长时间倒数到一个短时间，鲜明高能的剪辑节奏。」

适合：工具、SaaS、效率类。拉动：安装率、注册转化。

T5. 提问反框钩

结构：开场说出观众正在心里默问的那个问题，并暗示你有一个非显而易见的答案。

句式：「为什么 [X 类人] 一直 [问题]？答案不是 [显而易见的]。」

例：「为什么大多数 AI 视频还是看起来像假的？答案不是模型质量。是几乎没人在意的另一个东西。」

AI prompt：「直对镜头，创作者问完问题后停顿一拍，柔和侧光，亲密的中近景。」

适合：思考类、深度内容、观点类。拉动：评论率、转发率。

故事类视频 5 个 hook 公式

故事 hook 是另一种生物。观众来这里不是为了利益或学习——他们要的是情感弧线。Hook 必须把他们丢进一段已经在进行的弧线里，丢得足够快，让他们想知道结局。

S1. 半路开场（In Medias Res）

结构：从故事最高潮的瞬间开始，再倒回起点。

句式：开在高潮。切到「3 小时前」/「让我倒回来。」

例：开场是一个跑者哭着冲过终点线，切到「就在 6 个月前，我连路都不能走。」

AI prompt：「高潮瞬间的慢镜头近景，强烈的表情，仅环境声。硬切到一段更早的平淡场景，画面里打字幕『6 个月前』。」

适合：品牌片、转变类内容、纪录片风格。拉动：完播率、转发率。

S2. 第一人称 POV 钩

结构：立刻把观众丢到第一人称视角里，并且自带利害关系。

句式：「我有 [时间压力 / 利害]。[具体动作。]」

例：「我只有 24 小时来验证产品想法是否成立。所以我一夜之间生成了 50 个广告版本。」

AI prompt：「第一人称 POV 镜头，双手在笔记本上快速敲键盘，昏暗房间里只有屏幕光打在脸上，旁白像在思考的中段开口。」

适合：创业者内容、生活方式、个人故事。拉动：平均观看时长、评论互动。

S3. 视觉异常钩

结构：开场是一个还说不通的画面。观众为了搞清楚原因留下来。

句式：展示一个意料之外的场景，不解释。让好奇心拽住他们。

例：开场是一个西装革履的商人，推着一辆装满篮球的购物车穿过停车场。

AI prompt：「广角静止镜头，西装革履的商人推着装满篮球的购物车穿过黄金时刻空旷的停车场。无旁白、无字幕、仅环境声。4 秒。」

适合：品牌叙事、爆款内容、超现实 / 喜剧。拉动：3 秒留存、转发率、观看时长。

S4. 直接利害陈述

结构：在任何上下文之前，用一句话说出故事的利害。

句式：「[时间 / 情境] 那一刻，我决定 [做出决定]。」

例：「凌晨 11 点，我决定把整个 app 删掉重新开始。」

AI prompt：「中景，光线昏暗，主角动作进行中——手悬停在笔记本电脑的『删除』按钮上方，冷色温，旁白在画面定格瞬间响起。」

适合：创业者内容、幕后内容、决策类叙事。拉动：完播率、转粉。

S5. 自白钩（Confession）

结构：开场说出一个观众不会预期出自你这种身份的人之口的承认。

句式：「我 [一个对像我这样身份的人来说意外的承认]。」

例：「我开一家视频公司，已经 11 个月没碰过相机。」

AI prompt：「紧凑的中近景，柔和窗光，目光直视镜头，轻微微笑，像在对话中段一样随意地说出来，纯色背景。」

适合：个人品牌、专家内容、反共识表达。拉动：转发率、关注率。

AI 视频 hook 多两条规则

上面所有公式对所有视频都适用。AI 生成的视频多两个值得记住的约束。

1. 视觉必须在旁白响起之前就把 hook 落地

到了 2026 年，社交视频的大多数观看是静音自动播放。视觉 hook 必须在第 1 帧就立住，不是在旁白第 1 个词。这意味着：屏幕上的动作、构图、色彩——哪怕音频根本没响——也得能传达 hook。把它静音测试一下：静音都看得懂，hook 才合格；静音看不懂，hook 在失败。

2. 第一帧必须先压住「AI 渣内容」的模式识别

2026 年的观众已经被训练得能瞬间识别 AI 视频：过于丝滑的运动、塑料感的皮肤、泛泛的构图、柔和的默认布光。如果你第一帧符合这个模式，观众在你的 hook 落地之前就已经划走。反制方式：开场用一个有真实质感的具体细节（一只在小动作的手、被风吹动的头发、可信的影子），用一个有据可查的镜头语言选择（命名的焦距、具体的光源），或者用一个静止镜头突出质感而非运动。目的不是隐藏「这是 AI」——而是让第一帧看起来像刻意打磨，而不是自动生成。

这两条规则适用于上面每一个 hook 公式。把它们当作筛选器，而不是另一组独立技巧。

为视频挑对 hook

制作中能站得住的 3 个经验法则：

Hook 匹配格式。别给广告用故事 hook——CTR 会被浪费。别给喜剧故事用权威 hook。上面的公式按格式分组是有原因的。
Hook 匹配观众温度。冷流量（付费、推荐流）需要 hook 有更大的反差——模式中断、大承诺、视觉异常。暖流量（订阅、再营销）能容忍节奏更慢、更靠好奇心驱动的 hook（提问、自白）。
测 hook，不是测整支素材。转化向视频里杠杆率最高的 A/B 测试，是只换前 3 秒、其余视频保持不变。CTR 或留存通常会先于其他变量出现 30–60% 的变化。

完整公式库：

编号	Hook	格式	最佳场景	拉动指标
A1	精确痛点	广告	SaaS、agency	CTR
A2	具体大承诺	广告	App、电商	转化率
A3	模式中断	广告	快消、产品演示	3 秒留存
A4	反向（Negation）	广告	教育、工具	观看时长
A5	社会证明	广告	B2B、课程	留资率
T1	结果先示	教程	视觉类（设计、视频、代码）	观看时长
T2	误区	教程	专家内容	收藏率
T3	权威	教程	B2B、专业	留资
T4	捷径	教程	工具、SaaS	注册
T5	提问反框	教程	思考类	评论率
S1	半路开场	故事	品牌片	完播率
S2	第一人称 POV	故事	创业者内容	观看时长
S3	视觉异常	故事	品牌、爆款	转发率
S4	直接利害	故事	决策类叙事	完播率
S5	自白	故事	个人品牌	关注率

Genra 的处理方式

挑对 hook 是一项真本事。哪怕手里有这份公式库，把它正确地落到一个具体 brief 上——格式对、观众温度对、AI 渣压制对、视觉 / 听觉承载对——也是要练的。

Genra 的 agent 是端到端做完这件事的。你描述要什么视频，Genra 会选格式（广告 / 教程 / 故事）、按观众和目标挑一个合适的 hook 公式，并把开场写到画面和旁白都能承载它的程度。你不必懂 A2 和 T1 的差别——agent 懂。

如果你愿意自己学公式、自己用，本文就是参考。如果你更想直接拿到已经用上这些公式的成片，免费试用 Genra。40 个免费额度，无需信用卡。

关键要点

大约一半观众在前 3 秒离开。开场是整段视频里杠杆率最高的 3 秒。
有效的 hook 同时做 3 件事：停止滑动、承诺回报、匹配格式。
广告 hook 快速摆出痛点或利益：精确痛点、具体大承诺、模式中断、反向、社会证明。
教程 hook 快速证明回报存在并值得投入：结果先示、误区、权威、捷径、提问反框。
故事 hook 把观众丢进情感弧线：半路开场、第一人称 POV、视觉异常、直接利害、自白。
AI 视频 hook 多两条规则：视觉必须先于旁白落地（按静音测试）；第一帧必须看起来像「刻意打磨」而不是「自动生成」。
转化向视频里杠杆率最高的 A/B 测试是只换前 3 秒。预期 CTR 或留存有 30–60% 变化。
把 hook 匹配到格式、观众温度，并且——最关键的——测 hook，而不是测整支素材。

常见问题

为什么是 3 秒，不是 5 秒或 10 秒？

3 秒是平台算法最在意的分界。抖音、Reels、Shorts 都把极早期的跳出加权很重。统计上大约一半最终会离开的观众在第 3 秒前就走了。5–10 秒窗口当然也重要，但那是次要战场——如果观众在第 3 秒前已经流失，后面的努力就没有机会上场。

同一个 hook 公式能不能在一组活动的多支视频里重复用？

能用，但不该用。同一个 hook 在同一个流里出现多次，会变成观众识别并跳过的模式。一组活动里至少轮换 3 个 hook 公式。性能提升是可叠加的。

Hook 应该在视频主体之前还是之后写？

两次都写。先草拟一个 hook，让你知道你要交付什么。主体写完后再重写 hook——那时你已经知道主体里最强的具体瞬间，最强的 hook 通常就是「主体最强瞬间的 2 秒快闪 + 一句话引子」。

真的需要给广告 / 教程 / 故事用不同的 hook 吗？

是。每种格式和观众的心理契约不同。广告观众在扫「这是给我的吗」。教程观众在扫「会教我什么」。故事观众在扫「会去到一个地方吗」。违背格式契约的 hook 会让观众离开，哪怕视频后面很好。

Hook 之后视频应该有多长？

看平台和格式。抖音 / Reels：25–35 秒是留存加权下覆盖最佳的甜区。Shorts：35–45 秒。付费社媒广告：拉新 12–18 秒、再营销 30–45 秒。不要为了凑时长把视频拖过自然弧线——观众会在回报停止的那一刻离开。

AI 视频模型真能做出这些 hook 视觉吗？

能，有一个例外：依赖高度具体人类情感表达的 hook（细微的自白微笑、层次复杂的悲伤、喜剧节奏感）仍然是 AI 视频模型最弱的地方。这种情况要么用 AI 生成的建立镜头加上库存或真人拍摄的近景做情感节拍，要么挑一个更依赖构图和动作、而不是面部细节的 hook 公式。

对一个完全没人知道的新产品，最稳的 hook 是什么？

对未知产品，A2（具体大承诺）和 A3（模式中断）一致跑赢。它们不依赖品牌识别。它们只依赖观众识别痛点或被画面挡住。社会证明类 hook（A5）等到产品有可引用的结果之后再用。

怎么不烧钱地测出哪个 hook 在赢？

用同一段 20 秒的主体跑 3–5 个 hook 版本，每版小预算（20–50 美元）投在 Meta 或 TikTok，看第 3 秒的 thumb-stop 率和第 7 秒的观看时长。差异通常在 24 小时内、200 美元总花费内出现。然后把预算压到赢的那个上。

关于作者
Genra AI 团队致力于打造帮助创作者用 AI 制作专业视频内容的工具。关注 @GenraAI 获取更新、教程，以及对 AI 视频领域的真实看法。