AI 视频脚本 Hook 公式:广告、教程、故事三类视频的开场 3 秒模板

· Genra AI

AI 视频前 3 秒决定后面 30 秒会不会被看完。本文给出 15 个 hook 公式——广告 5 个、教程 5 个、故事 5 个,每条都附结构、AI 视频 prompt,以及它真正能拉动的指标。

但凡你在 2026 年看过任何视频后台数据,残酷的算术就摆在面前:大约一半观众在前 3 秒离开。在抖音、TikTok 和 Reels 上更陡峭——如果开场没钩住,65% 的人在第 3 秒前就已经划走。视频后面所有的努力,都被这前 3 秒乘以一个倍数(或者直接乘以零)。

大多数创作者的本能——包括用 AI 视频工具的人——是把大量精力花在主体内容上,把开场当作「介绍」。这是反过来了。开场是整段视频里杠杆率最高的 3 秒。开场对了,留存曲线就拉平;开场错了,跳出率会让你后面所有工作都变得不可见。

本文是一份可工作的 hook 公式库:15 个 hook 公式,按视频类型组织。AI 创作者最常出片的三类格式各 5 个:广告(付费投放、转化向素材)、教程(how-to、解释类、教学)、故事(叙事、品牌、生活方式)。每条公式给出结构、对应的 AI 视频 prompt、适用主题,以及它真正能拉动的指标。

这些都不是理论。它们是从过去 18 个月在抖音、TikTok、Reels、Shorts 和付费社媒上分析数百万条高完播视频中提取出的模式。同样的模式适用于真人拍摄、Premiere 剪辑、AI agent 生成——三类视频都通用。

为什么前 3 秒决定一切

3 秒不是个随便设的数字,它是现代社交平台衡量价值方式的产物:

  • 抖音 / TikTok 用「视频完播率」信号,对早期跳出加权很重。第 3 秒就划走,等于直接告诉算法这个内容失败了。
  • Meta(Reels & Stories)看 ThruPlay 但权重在平均观看时长。前 3 秒掉粉的视频在分发和广告成本上都被惩罚。
  • YouTube Shorts 看平均观看时长。前 3 秒就是曲线断崖的地方。
  • 付费投放在每个平台都给你一张快速留存图。第 3 秒的悬崖,就是赢家广告和输家广告的分界线。

对 AI 视频还有额外一层。2026 年的观众已经被训练得能一眼认出「AI 感」内容并把它整体划过。你的 hook 不只在抢注意力——它还在抢先压住「这是 AI 渣内容」的本能反应。一个强 hook 能在观众真正开始评估质量之前,多换来 7 秒的耐心。

Hook 必须做的 3 件事

  1. 停止滑动。用视觉或听觉的模式中断打断自动滑动的本能行为。
  2. 承诺回报。明确传递「再看 20–30 秒会值得」。
  3. 匹配格式。广告 hook 承诺利益。教程 hook 承诺学到东西。故事 hook 承诺情感弧线。

下面每条公式都是同时做这三件事的不同方式。

广告类视频 5 个 hook 公式

广告 hook 必须做另外两类不需要做的事:在 3 秒内把产品或问题端上台面。你没时间搭故事弧线。你只有时间——要么把痛点说得精准到让目标用户觉得「被看见」,要么给出一个具体到让人想知道「怎么做到的」的承诺。

A1. 精确痛点钩

结构:说出目标用户在过去 24 小时里真切体验过的一个超具体的痛点。

句式:「如果你也曾经[具体小痛点]……」

例:「如果你也曾为一段 30 秒的视频花 40 分钟挑背景音乐,这个视频是给你的。」

AI prompt:「一个挫败的创作者翻找音乐库的近景,肩膀垮下,环境光昏暗,前 2 秒里旁白说出具体痛点。」

适合:效率工具、SaaS、agency。拉动:CTR、安装率。

A2. 具体大承诺钩

结构:具体到时间和数字的明确成果。

句式:「[具体结果] 在 [具体时间] 内完成,无需 [常见门槛]。」

例:「4 分钟内做出一支 30 秒的成片产品视频。不剪辑,不写脚本。」

AI prompt:「分屏:左边一个秒表从 4:00 倒数到 0:00,右边一个产品视频实时一镜一镜组装出来。明亮高能的色调。」

适合:消费类 app、电商、任何成果可量化的产品。拉动:CTR、转化率。

A3. 模式中断钩

结构:用一个视觉或语言上的反预期画面,打破观众预期看到的东西。

句式:把整段视频里最反常识、最意外的瞬间放到开头。

例:吸尘器广告开场是一个全景:有人故意把咖啡泼到白色地毯上。

AI prompt:「广角静止镜头,白色客厅地毯,咖啡杯在第一秒慢动作翻倒,深色污渍蔓延。无旁白,仅环境音。」

适合:快消、家居、产品演示。拉动:3 秒留存、观看时长。

A4. 反向钩(Negation)

结构:告诉观众不要做大家都在做的事。否定式比肯定式制造好奇心更快。

句式:「先别 [常见行为],看完这条再说。」

例:「先别写下一个 AI 视频 prompt——看完这 20 秒再写。」

AI prompt:「直对镜头中景,创作者举手做「停」的手势,目光锐利地直视镜头,身体微微前倾,纯色背景,正面硬光。」

适合:教育、工具、任何「替代方案是糟糕的」的场景。拉动:观看时长、转发率。

A5. 社会证明钩

结构:用别人拿到的具体可信结果开场。数字和身份比形容词管用。

句式:「[具体身份] 用 [产品] 做到了 [具体成果]。」

例:「三家 Shopify 店主用 AI 做的广告 ROAS 做到 8 倍。我们看看他们到底做了什么不一样的事。」

AI prompt:「三联画构图:三个分屏,每个展示一位店主在自己的工作环境里,柔和自然光,屏幕文字打出每个人的 ROAS 数字。」

适合:B2B、agency、课程、任何可信度敏感的场景。拉动:留资率、转化率。

教程类视频 5 个 hook 公式

教程 hook 是另一份工作。观众来这里是为了学东西。你不用说服他们想要回报——你要快速证明回报存在、你能交付,并且这条值得他们投入时间,胜过他们本来可以点开的另外十几条教程。

T1. 结果先示钩

结构:解释什么之前,先把成品摆出来。

句式:「这是我们要做的东西。接下来教你怎么做。」

例:2 秒成品快闪,紧接着「接下来 90 秒里,我会一步一步教你做出这个。」

AI prompt:「开场 2 秒高质量成品预览,硬切到一个干净的工作室场景里直对镜头的创作者,手里拿着一台显示同一成品的平板。」

适合:设计、视频、代码、菜谱——任何视觉类内容。拉动:平均观看时长、点赞率。

T2. 误区钩

结构:说出观众正在犯的、但他们自己没意识到的错。

句式:「大多数人都在 [常见做法]。这正是 [结果] 不好的原因。」

例:「大多数创作者把 AI 视频 prompt 写成一大段长段落。这正是他们生成的镜头看起来都差不多的原因。这里是修法。」

AI prompt:「左右对比:左侧一段乱糟糟的长段落 prompt 文字,右侧一段干净结构化的 prompt 格式。右侧轻微推进。」

适合:教育、专家内容、任何观众已经有习惯的领域。拉动:观看时长、收藏率。

T3. 权威钩

结构:开场就建立可信度,再承诺一个具体的学习点。

句式:「我做过 [具体经验]。下面是我希望自己当时就懂的 [框架 / 系统 / 误区]。」

例:「我做过 200 多支 AI 生成的广告素材。下面是 3 个一直跑赢其他 hook 的开场公式。」

AI prompt:「中近景直对镜头,创作者在采光良好的家庭办公空间,背景能看到书或工作器物,沉稳自信地讲话。」

适合:专业内容、B2B、专业服务。拉动:留资、转粉。

T4. 捷径钩

结构:承诺最快达到结果的路径。

句式:「[结果] 的最快做法。不需要 [常见慢方法]。」

例:「转化率最高的产品视频的最快做法。不要相机,不要演员,不要剪辑软件。」

AI prompt:「延时风格的成片组装,屏幕上的计时器从一个长时间倒数到一个短时间,鲜明高能的剪辑节奏。」

适合:工具、SaaS、效率类。拉动:安装率、注册转化。

T5. 提问反框钩

结构:开场说出观众正在心里默问的那个问题,并暗示你有一个非显而易见的答案。

句式:「为什么 [X 类人] 一直 [问题]?答案不是 [显而易见的]。」

例:「为什么大多数 AI 视频还是看起来像假的?答案不是模型质量。是几乎没人在意的另一个东西。」

AI prompt:「直对镜头,创作者问完问题后停顿一拍,柔和侧光,亲密的中近景。」

适合:思考类、深度内容、观点类。拉动:评论率、转发率。

故事类视频 5 个 hook 公式

故事 hook 是另一种生物。观众来这里不是为了利益或学习——他们要的是情感弧线。Hook 必须把他们丢进一段已经在进行的弧线里,丢得足够快,让他们想知道结局。

S1. 半路开场(In Medias Res)

结构:从故事最高潮的瞬间开始,再倒回起点。

句式:开在高潮。切到「3 小时前」/「让我倒回来。」

例:开场是一个跑者哭着冲过终点线,切到「就在 6 个月前,我连路都不能走。」

AI prompt:「高潮瞬间的慢镜头近景,强烈的表情,仅环境声。硬切到一段更早的平淡场景,画面里打字幕『6 个月前』。」

适合:品牌片、转变类内容、纪录片风格。拉动:完播率、转发率。

S2. 第一人称 POV 钩

结构:立刻把观众丢到第一人称视角里,并且自带利害关系。

句式:「我有 [时间压力 / 利害]。[具体动作。]」

例:「我只有 24 小时来验证产品想法是否成立。所以我一夜之间生成了 50 个广告版本。」

AI prompt:「第一人称 POV 镜头,双手在笔记本上快速敲键盘,昏暗房间里只有屏幕光打在脸上,旁白像在思考的中段开口。」

适合:创业者内容、生活方式、个人故事。拉动:平均观看时长、评论互动。

S3. 视觉异常钩

结构:开场是一个还说不通的画面。观众为了搞清楚原因留下来。

句式:展示一个意料之外的场景,不解释。让好奇心拽住他们。

例:开场是一个西装革履的商人,推着一辆装满篮球的购物车穿过停车场。

AI prompt:「广角静止镜头,西装革履的商人推着装满篮球的购物车穿过黄金时刻空旷的停车场。无旁白、无字幕、仅环境声。4 秒。」

适合:品牌叙事、爆款内容、超现实 / 喜剧。拉动:3 秒留存、转发率、观看时长。

S4. 直接利害陈述

结构:在任何上下文之前,用一句话说出故事的利害。

句式:「[时间 / 情境] 那一刻,我决定 [做出决定]。」

例:「凌晨 11 点,我决定把整个 app 删掉重新开始。」

AI prompt:「中景,光线昏暗,主角动作进行中——手悬停在笔记本电脑的『删除』按钮上方,冷色温,旁白在画面定格瞬间响起。」

适合:创业者内容、幕后内容、决策类叙事。拉动:完播率、转粉。

S5. 自白钩(Confession)

结构:开场说出一个观众不会预期出自你这种身份的人之口的承认。

句式:「我 [一个对像我这样身份的人来说意外的承认]。」

例:「我开一家视频公司,已经 11 个月没碰过相机。」

AI prompt:「紧凑的中近景,柔和窗光,目光直视镜头,轻微微笑,像在对话中段一样随意地说出来,纯色背景。」

适合:个人品牌、专家内容、反共识表达。拉动:转发率、关注率。

AI 视频 hook 多两条规则

上面所有公式对所有视频都适用。AI 生成的视频多两个值得记住的约束。

1. 视觉必须在旁白响起之前就把 hook 落地

到了 2026 年,社交视频的大多数观看是静音自动播放。视觉 hook 必须在第 1 帧就立住,不是在旁白第 1 个词。这意味着:屏幕上的动作、构图、色彩——哪怕音频根本没响——也得能传达 hook。把它静音测试一下:静音都看得懂,hook 才合格;静音看不懂,hook 在失败。

2. 第一帧必须先压住「AI 渣内容」的模式识别

2026 年的观众已经被训练得能瞬间识别 AI 视频:过于丝滑的运动、塑料感的皮肤、泛泛的构图、柔和的默认布光。如果你第一帧符合这个模式,观众在你的 hook 落地之前就已经划走。反制方式:开场用一个有真实质感的具体细节(一只在小动作的手、被风吹动的头发、可信的影子),用一个有据可查的镜头语言选择(命名的焦距、具体的光源),或者用一个静止镜头突出质感而非运动。目的不是隐藏「这是 AI」——而是让第一帧看起来像刻意打磨,而不是自动生成。

这两条规则适用于上面每一个 hook 公式。把它们当作筛选器,而不是另一组独立技巧。

为视频挑对 hook

制作中能站得住的 3 个经验法则:

  1. Hook 匹配格式。别给广告用故事 hook——CTR 会被浪费。别给喜剧故事用权威 hook。上面的公式按格式分组是有原因的。
  2. Hook 匹配观众温度。冷流量(付费、推荐流)需要 hook 有更大的反差——模式中断、大承诺、视觉异常。暖流量(订阅、再营销)能容忍节奏更慢、更靠好奇心驱动的 hook(提问、自白)。
  3. 测 hook,不是测整支素材。转化向视频里杠杆率最高的 A/B 测试,是只换前 3 秒、其余视频保持不变。CTR 或留存通常会先于其他变量出现 30–60% 的变化。

完整公式库:

编号 Hook 格式 最佳场景 拉动指标
A1精确痛点广告SaaS、agencyCTR
A2具体大承诺广告App、电商转化率
A3模式中断广告快消、产品演示3 秒留存
A4反向(Negation)广告教育、工具观看时长
A5社会证明广告B2B、课程留资率
T1结果先示教程视觉类(设计、视频、代码)观看时长
T2误区教程专家内容收藏率
T3权威教程B2B、专业留资
T4捷径教程工具、SaaS注册
T5提问反框教程思考类评论率
S1半路开场故事品牌片完播率
S2第一人称 POV故事创业者内容观看时长
S3视觉异常故事品牌、爆款转发率
S4直接利害故事决策类叙事完播率
S5自白故事个人品牌关注率

Genra 的处理方式

挑对 hook 是一项真本事。哪怕手里有这份公式库,把它正确地落到一个具体 brief 上——格式对、观众温度对、AI 渣压制对、视觉 / 听觉承载对——也是要练的。

Genra 的 agent 是端到端做完这件事的。你描述要什么视频,Genra 会选格式(广告 / 教程 / 故事)、按观众和目标挑一个合适的 hook 公式,并把开场写到画面和旁白都能承载它的程度。你不必懂 A2 和 T1 的差别——agent 懂。

如果你愿意自己学公式、自己用,本文就是参考。如果你更想直接拿到已经用上这些公式的成片,免费试用 Genra。40 个免费额度,无需信用卡。

关键要点

  • 大约一半观众在前 3 秒离开。开场是整段视频里杠杆率最高的 3 秒。
  • 有效的 hook 同时做 3 件事:停止滑动、承诺回报、匹配格式。
  • 广告 hook 快速摆出痛点或利益:精确痛点、具体大承诺、模式中断、反向、社会证明。
  • 教程 hook 快速证明回报存在并值得投入:结果先示、误区、权威、捷径、提问反框。
  • 故事 hook 把观众丢进情感弧线:半路开场、第一人称 POV、视觉异常、直接利害、自白。
  • AI 视频 hook 多两条规则:视觉必须先于旁白落地(按静音测试);第一帧必须看起来像「刻意打磨」而不是「自动生成」。
  • 转化向视频里杠杆率最高的 A/B 测试是只换前 3 秒。预期 CTR 或留存有 30–60% 变化。
  • 把 hook 匹配到格式、观众温度,并且——最关键的——测 hook,而不是测整支素材。

常见问题

为什么是 3 秒,不是 5 秒或 10 秒?

3 秒是平台算法最在意的分界。抖音、Reels、Shorts 都把极早期的跳出加权很重。统计上大约一半最终会离开的观众在第 3 秒前就走了。5–10 秒窗口当然也重要,但那是次要战场——如果观众在第 3 秒前已经流失,后面的努力就没有机会上场。

同一个 hook 公式能不能在一组活动的多支视频里重复用?

能用,但不该用。同一个 hook 在同一个流里出现多次,会变成观众识别并跳过的模式。一组活动里至少轮换 3 个 hook 公式。性能提升是可叠加的。

Hook 应该在视频主体之前还是之后写?

两次都写。先草拟一个 hook,让你知道你要交付什么。主体写完后再重写 hook——那时你已经知道主体里最强的具体瞬间,最强的 hook 通常就是「主体最强瞬间的 2 秒快闪 + 一句话引子」。

真的需要给广告 / 教程 / 故事用不同的 hook 吗?

是。每种格式和观众的心理契约不同。广告观众在扫「这是给我的吗」。教程观众在扫「会教我什么」。故事观众在扫「会去到一个地方吗」。违背格式契约的 hook 会让观众离开,哪怕视频后面很好。

Hook 之后视频应该有多长?

看平台和格式。抖音 / Reels:25–35 秒是留存加权下覆盖最佳的甜区。Shorts:35–45 秒。付费社媒广告:拉新 12–18 秒、再营销 30–45 秒。不要为了凑时长把视频拖过自然弧线——观众会在回报停止的那一刻离开。

AI 视频模型真能做出这些 hook 视觉吗?

能,有一个例外:依赖高度具体人类情感表达的 hook(细微的自白微笑、层次复杂的悲伤、喜剧节奏感)仍然是 AI 视频模型最弱的地方。这种情况要么用 AI 生成的建立镜头加上库存或真人拍摄的近景做情感节拍,要么挑一个更依赖构图和动作、而不是面部细节的 hook 公式。

对一个完全没人知道的新产品,最稳的 hook 是什么?

对未知产品,A2(具体大承诺)和 A3(模式中断)一致跑赢。它们不依赖品牌识别。它们只依赖观众识别痛点或被画面挡住。社会证明类 hook(A5)等到产品有可引用的结果之后再用。

怎么不烧钱地测出哪个 hook 在赢?

用同一段 20 秒的主体跑 3–5 个 hook 版本,每版小预算(20–50 美元)投在 Meta 或 TikTok,看第 3 秒的 thumb-stop 率和第 7 秒的观看时长。差异通常在 24 小时内、200 美元总花费内出现。然后把预算压到赢的那个上。


关于作者
Genra AI 团队致力于打造帮助创作者用 AI 制作专业视频内容的工具。关注 @GenraAI 获取更新、教程,以及对 AI 视频领域的真实看法。