AI视频提示词实战指南：如何写出真正有效的Prompt（2026版）

同一个模型，好的提示词和差的提示词，出片质量天差地别。这篇是从数百次实战中提炼的方法论——覆盖Sora 2、Veo 3.1、Kling 3.0和Seedance 2.0。

提示词是AI视频质量的最大变量

一个可能让你意外的事实：好提示词和差提示词之间的质量差距，比不同模型之间的差距还大。一条写得好的Kling 3.0提示词，出来的效果经常吊打一条随便写的Veo 3.1——即使Veo在技术能力上更强。

但大多数创作者对提示词不够重视。写一句话，点生成，看到效果一般，就觉得是模型不行。

这篇指南不讲理论。所有内容都是从四大主流模型的真实使用中总结出来的。我们会覆盖：浪费你生成额度的五大误区、一个跨模型通用的结构化框架、四大模型各自的最佳写法、以及多镜头叙事的进阶技巧。最后，我们会聊一个核心问题：你是否真的需要写提示词。

为什么大多数AI视频提示词效果不好

在学习怎么写之前，先看看哪里出了问题。以下五个误区涵盖了绝大多数令人失望的生成结果。

误区一：太笼统

差："一只猫在花园里走"

这几乎没给模型任何信息。什么猫？什么品种、颜色、年龄？什么花园——日式枯山水、英式田园、还是城市废弃花园？什么时间？什么氛围？模型只能用最平庸的默认值填充所有空白，你得到的自然是平庸的结果。

好："一只毛茸茸的橘色虎斑猫沿着长满青苔的石板路缓步行走，日式枯山水庭院，清晨黄金时段的柔和光线，浅景深，远处锦鲤池面升起薄雾，低角度跟随猫的移动，电影质感24fps"

误区二：太长且自相矛盾

差："一个穿红裙的女人在舞厅跳舞，水晶吊灯和大理石地板，镜头慢慢推进同时又拉远展示整个房间，窗外下着雨但明亮的阳光照进来，她又笑又哭，场景从白天过渡到夜晚在同一个镜头里，复古1920年代风格但有现代霓虹灯光……"

当提示词塞满矛盾指令（推进又拉远、下雨又有阳光、笑又哭），模型不知道优先执行哪个方向。结果就是视觉混乱——画面伪影、风格闪烁、动作不连贯。字越多≠效果越好。每条指令都需要内在一致。

误区三：用模糊语言描述运镜

差："镜头做一些很酷很有张力的运动"

也差："镜头用一种有趣的方式跟随动作"

模型不理解"酷"、"有张力"、"有趣"这类主观描述词。它们响应的是具体的摄影术语：推镜头（dolly forward）、跟踪拍摄（tracking shot）、摇臂升降（crane up）、手持晃动（handheld）、急速横摇（whip pan）、缓推（slow push-in）。不说运镜语言，模型就默认给你一个静止或随机晃动的镜头。

好："缓慢推镜头接近主体，微微仰角，平稳云台运动"

误区四：忽略风格、光线和氛围

差："一个男人坐在办公桌前用笔记本电脑工作"

这条提示词描述了"是什么"，但完全没说"看起来怎样"。没有风格和氛围线索，模型就输出平淡、均匀打光、像素材库默认图的东西。视频的视觉个性全藏在大多数人忘了写的细节里：

光线：黄金时段暖光、阴天漫射光、头顶荧光灯冷光、逆光剪影
色调：暖色大地色系、冷色低饱和蓝调、高对比黑白
氛围：空气中的浮尘颗粒、升腾的蒸汽、镜头光晕、虚化光斑
影像参考："罗杰·迪金斯式摄影风格"或"韦斯·安德森式对称构图"

误区五：直接复制别人的提示词

提示词分享社区里充斥着"神奇提示词"，号称能出惊人效果。问题在于：一条在特定模型、特定分辨率、特定主体上完美运作的提示词，换任何一个变量都可能翻车。如果你不理解每个元素为什么在那里，你就没法根据自己的需求调整。

解法不是背提示词——而是理解底层框架。

好提示词的结构解剖

每条有效的AI视频提示词都遵循一致的结构，不管你有没有意识到。我们把它叫做SAECS框架——五个层次，组合起来给模型提供它需要的所有信息。

第一层：主体（Subject）

画面里是谁/什么？

明确外貌、年龄、服装和辨识特征。"一个女人"太弱。"一个30多岁的女性，短黑发，穿深灰色修身西装"给模型清晰的目标。

第二层：动作（Action）

主体在做什么？

精确描述动态。"走路"太模糊。"右手提着公文包，快步穿行在拥挤的人行道上"制造出具体、可信的运动。

第三层：环境（Environment）

在哪里发生？

包括场景、时间、天气和环境细节。"一条城市街道"太平淡。"凌晨2点的东京街头，雨后路面反射着霓虹灯光，一家拉面摊升腾着蒸汽"——这才是一个世界。

第四层：摄影（Cinematography）

怎么拍的？

指定机位角度、运动方式、镜头焦段和景深。这是大多数新手最缺的一层。核心术语：

角度：仰角、俯角、平视、鸟瞰、荷兰倾斜
运动：固定、推/拉镜头、跟踪、摇臂升降、手持、稳定器、急速横摇
焦段：广角（14mm）、标准（50mm）、长焦（85mm+）、微距
景深：浅景深虚化、全景深、焦点转移、柔焦背景

第五层：风格（Style）

整体的视觉感受是什么？

涵盖打光、调色、胶片质感和美学参考。只写"电影感"太模糊。具体地说："变形宽银幕镜头光晕，青橙色调，胶片颗粒感，2.39:1画幅比"——这才告诉模型你到底要什么视觉风格。

SAECS框架实战示例

一条弱提示词经过框架改造后的对比：

改造前："一个厨师在餐厅后厨做菜"

改造后（SAECS）："一位60多岁的日本寿司师傅，穿传统白色厨师服【主体】，用长柳刃刀精准地切三文鱼，每一刀从容而自信【动作】，极简风格的寿司吧台厨房，暖色柏木台面，头顶柔和吊灯照明【环境】，从吧台对面的中近景机位，浅景深将背景客人柔化，轻微慢动作48fps【摄影】，自然暖光，低饱和大地色调，纪录片写实风格，85mm镜头拍摄【风格】"

这两条提示词在同一个模型上的输出质量差距是巨大的。

四大模型的差异化写法

SAECS框架在所有模型上都适用，但每个模型有自己的长项和脾气。针对性优化提示词可以让效果提升30–50%。

Sora 2 — 叙事型导演

优势：叙事连贯性、多角色场景、复杂动作序列

写法风格：Sora 2对"导演说戏"式的提示词反应最好——像在给剧组下指令那样描述场景。它处理顺序动作和因果关系的能力强于其他所有模型。

Sora 2优化示例："以空荡荡的篮球场黄昏远景开场。一个少年从画面左侧入画，拍着一个旧篮球。他在罚球线停下，深吸一口气，投篮。球以慢动作划出弧线，碰到篮筐弹了一下，落入网中。他握拳庆祝。镜头缓慢拉远，揭示这个球场在一栋楼的天台上，背景是城市天际线。黄金时段光线，手持纪录片质感，16mm胶片颗粒。"

Sora 2要点：

使用时间线语言："先……然后……最后"或"以……开场……过渡到……"
描述因果关系："她推开门，门后出现的是……"
Sora 2擅长处理类对话场景——即使没有音频，也可以描述嘴型和表情
避免过于技术化的运镜术语——自然语言式导演指令效果更好

Veo 3.1 — 物理引擎

优势：物理真实感、光线精确度、材质渲染、原生音频

写法风格：Veo 3.1在你强调物理属性时表现最佳——光线如何与表面交互、材质如何表现、环境如何发声。它是物理模拟最准确的模型。

Veo 3.1优化示例："特写镜头：意式浓缩咖啡被倒入透明玻璃杯中，深色液体与蒸奶混合形成分层效果。顶部形成可见的crema油脂层。杯子放在抛光大理石台面上，反射着头顶暖色吊灯的光。蒸汽升腾并捕捉到光线，形成柔和的体积光。背景中咖啡机嘶嘶声，杯子轻触大理石的清脆声响。微距镜头拍摄，极浅景深，暖色温，4K分辨率。"

Veo 3.1要点：

明确描述材质："拉丝不锈钢"、"粗加工橡木"、"湿润的水泥地面"
指定光线行为："光线穿透玻璃折射"、"蒸汽上的轮廓光"
利用原生音频能力——在提示词中直接描述环境声
提及分辨率（4K）以触发高清晰度生成管线

Kling 3.0 — 角色动画师

优势：人体动作准确性、面部表情、中文提示词原生支持、角色一致性

写法风格：Kling 3.0处理精细人体运动和情感表达的能力超过竞品。它的运动模型在微妙手势、面部微表情和全身动作序列上尤其强大。

Kling 3.0优化示例："一位长发女子，穿白色飘逸汉服，在竹林中表演一段优雅的古典团扇舞。她快速甩开红色丝绸团扇，手臂画弧舒展，然后缓缓旋转——裙摆随动作拖曳出优美的弧线。她的表情宁静而专注。竹林枝叶间透过柔和的自然光，在地面投下斑驳光影。中景机位，跟踪她的旋转运动，60fps慢动作。"

Kling 3.0要点：

详细描述肢体力学："伸展手臂"、"重心移到左脚"、"缓缓转头"
面部表情很关键："浅浅的微笑"、"微皱眉头"、"眼睛因惊讶而睁大"
Kling原生支持中文提示词——涉及中国文化内容时，直接用中文写效果更好
多镜头角色一致性可以配合Kling的参考图功能使用

Seedance 2.0 — 动态专家

优势：动态运动、舞蹈编排、节奏感动作、高能量场景

写法风格：Seedance 2.0专为复杂动态运动而生。快速动作、舞蹈编排、节奏性运动，它比任何模型都处理得好。关键是描述运动的节奏和能量，而不只是身体位置。

Seedance 2.0优化示例："一个穿黑色连帽衫和宽松工装裤的街舞者在地铁站台上表演高能量霹雳舞。他下蹲进入大风车，背部旋转双腿伸展，然后弹起定格——单手撑地，身体水平悬空。动作爆发力强、干脆利落，配合快节奏嘻哈节拍。背景中其他乘客惊讶地围观。头顶荧光灯冷硬照明带镜头光晕，手持相机轻微晃动，粗粝的城市纪实风格，60fps。"

Seedance 2.0要点：

描述节奏和速度："干脆利落的顿点动作"、"流畅连贯"、"能量爆发"
使用舞蹈专业术语："旋转"、"Popping and Locking"、"身体波浪"、"定格"
指定能量级别："高能量"、"缓慢且可控"、"逐渐升级的强度"
Seedance擅长多人编排——描述队形变化和同步动作

从描述到分镜：多镜头提示词

单镜头提示词适合做素材，但真正的视频内容需要多个镜头剪辑成一个连贯序列。这是大多数创作者卡壳的地方——也是结构化提示词最能体现价值的地方。

核心挑战：视觉一致性

当你用5条独立的提示词生成5个片段，很可能得到5个看起来不一样的场景。角色头发颜色偏移、光线氛围变化、色调风格游走。把这些剪到一起，视频看起来支离破碎。

解决方案：锚定元素

通过在序列的每条提示词中重复锚定元素来保持一致性：

角色锚定：每个镜头重复完全相同的角色描述（"30多岁女性，短黑发，深灰西装"）
风格锚定：使用完全相同的风格描述词（"自然暖光，低饱和大地色调，85mm镜头，浅景深"）
环境锚定：在同一场景的不同镜头之间保持环境细节一致

实例：一条30秒产品广告的4镜头分镜

产品：一款极简智能手表。目标：30秒社交平台广告。

镜头1（钩子——3秒）："手腕上极简智能手表的极致特写，表盘亮起淡蓝色通知提醒。手搁在深胡桃木办公桌上。浅景深，暖色调办公室环境光，微微推镜头接近表盘。干净现代的视觉风格，低饱和色调，蓝色屏幕是画面中唯一的高饱和元素。"

镜头2（痛点——5秒）："同一张深胡桃木办公桌前的中景，一个穿深蓝圆领毛衣的年轻职场男性被多个设备包围——手机、平板、笔记本——全部显示着通知。他一脸疲惫地揉着太阳穴。同样的暖色办公室环境光，低饱和色调。轻微手持晃动，平视角度。"

镜头3（解决方案——5秒）："同一个穿深蓝圆领毛衣的年轻职场男性看了一眼手腕上的极简智能手表，露出释然的微笑。他自信地滑动表盘。手表屏幕特写，显示整洁的统一通知面板。同样的暖色办公室环境光，低饱和色调。从表盘平滑跟踪拍摄到他的表情。"

镜头4（生活方式——5秒）："同一个穿深蓝圆领毛衣的年轻职场男性在阳光明媚的城市公园中行走，手腕上的智能手表清晰可见，神态轻松自信。黄金时段自然光，浅景深将背景树木柔化。远距离轻微跟踪拍摄。同样的低饱和色调加温暖的金色调。"

注意每个镜头都重复了角色描述（"穿深蓝圆领毛衣的年轻职场男性"）、色调（"低饱和色调"）和产品描述（"极简智能手表"）。这些锚定元素让四个独立生成的镜头能够剪成一条连贯的视频。

进阶技巧

负面提示词

部分平台（特别是Kling和Seedance）支持负面提示词——告诉模型不要生成什么。用它来消除常见的失败模式：

实用的负面提示词："模糊, 面部变形, 多余手指, 文字扭曲, 过度饱和, 水印, 低分辨率, 卡通风格, 动漫"

负面提示词不要堆砌。只聚焦你在实际输出中真正见过的3–5种问题，而不是列一长串你能想到的所有东西。

图生视频（Image-to-Video）的提示词策略

从参考图出发时，提示词应该聚焦于变化的部分，而不是重复图片已经展示的内容：

差的图生视频提示词："一个红头发的女人站在向日葵田里"（重复了图片已有的信息）

好的图生视频提示词："她向右转头笑起来，风吹起头发，向日葵轻轻摇曳。镜头缓慢推进。一只蝴蝶落在她肩上。"（描述运动和变化）

风格迁移关键词

这些高效关键词可以可靠地改变输出的视觉风格：

超写实："photorealistic, shot on ARRI Alexa, natural lighting, 35mm film"
电影感："anamorphic lens, teal and orange grade, 2.39:1 aspect ratio, film grain"
纪录片："handheld camera, natural light only, 16mm film stock, observational style"
商业广告："clean studio lighting, product photography, crisp focus, white cyclorama"
暗调/黑色电影："high contrast, deep shadows, single hard light, desaturated, smoke haze"

系统化迭代流程

当生成结果不满意时，不要随机重写整条提示词，而是用可控迭代流程：

用完整SAECS提示词生成
识别最弱的一层——是主体不对？动作不对？还是光线不对？
只修改那一层，其他所有部分保持不变
重新生成并对比
锁定改进后的那层，转向下一个最弱的环节

这种方法隔离变量，让你高效收敛到最优提示词，而不是在"提示词轮盘赌"中碰运气。

房间里的大象：你真的需要写提示词吗？

如果你读到了这里，说明你确实投入了时间学习提示词技术。这些方法真的有用——上面的技巧会让你在任何AI视频模型上的出片质量有肉眼可见的提升。

但有一个不太舒服的真相：提示词工程是权宜之计，不是终点。

回想一下你在这篇文章里学到的是什么：

如何弥补每个模型的盲区
如何用模型的语言说话，而不是用你自己的语言
如何手动维护多镜头之间的视觉一致性
如何通过反复试错找到有效的写法

这些都不是你想要花时间做的事情。它们是你为工具的不足所付出的"税"。你想要的是一条电影级产品视频——但你不能直接说出来，而是要逆向工程出一组特定的词汇组合来让模型产出一条。

Agent方式

这正是Genra要解决的问题。Genra不是把原始模型暴露给你然后期望你成为提示词工程师，而是作为一个端到端的AI agent运作：

你描述你的意图："给我的智能手表做一条30秒的产品视频，目标受众是年轻职场人群"
agent处理一切：写脚本、拆分场景、为每个镜头选择最优模型、编写模型专属提示词、生成画面、配音配乐、合成最终视频

SAECS框架、模型差异化优化、锚定元素一致性管理、系统化迭代——Genra的agent在内部自动完成这一切。不是说这些技术不重要，而是它们不应该是你的工作。

提示词工程是AI视频工具进化过程中的必经阶段。但未来的方向不是用户越来越会跟模型说话——而是agent理解用户真正想要什么，然后自己完成翻译。

如果你在直接使用各个模型，这篇指南里的技巧会对你很有帮助。但如果你更想跳过学习曲线直接得到好视频，agent方式就是Genra存在的意义。

免费试用Genra——描述你想要什么，剩下的交给agent。不需要写提示词，不需要剪辑，不需要选模型。只需要结果。