为什么我们关掉了视频外包合同：用 AI Agent 替代视频制作的 90 天落地手册

三家公司——一个 Shopify DTC 品牌、一家 B2B SaaS、一家媒体公司——面对的是同一个问题：每年大约 $40K 的视频制作预算，产能却跟不上需求。90 天后，三家公司的预算平均砍掉 70%，视频产量翻了 3 倍。这是他们用过的执行手册。文中会诚实地讲清楚：什么有效、什么踩坑、哪些环节他们刻意保留给人类。

视频制作在大多数成长期公司的损益表上，处在一个奇怪的位置。它是决策者最不舍得砍的项目之一——因为它同时牵动品牌、销售和市场；它也是公司最容易超支的项目之一——因为长期以来，替代方案比开销本身更糟。外包公司又慢又贵。Freelancer 经常失联。内部视频团队又招不到 $4M 到 $30M ARR 公司真正需要的人员密度。于是预算照付，产能停滞，市场团队反复向 CFO 解释"我们需要更多视频"，但视频量始终上不来。

过去一个季度，我们陪伴三家公司走完了 90 天的迁移：从依赖外包到 agent-native。一家 Shopify DTC 服装品牌；一家 B2B SaaS 公司；一家做客户交付的中型媒体与 PR 公司。三家公司行业不同、产量不同、预算结构不同，走完的轨迹却惊人地相似。第 90 天时，三家公司都终止了主要的视频外包合同，把节省下来的预算的一小部分重新投入到一个内部的半-FTE 角色，季度视频产量超过了过去任何一个季度——成本却只剩下原来的约 30%。

下面不是营销宣讲，也不是理论推演。这是真实可执行的手册：逐周任务、每家公司的成本拆解、他们撞上的失败模式，以及他们刻意保留给人类的那一小块工作。如果你是创始人、市场负责人或运营负责人，目前一年在视频上花 $20K 到 $80K，这就是你可以照搬的方案。

三家公司（复合案例）

在继续之前先说清楚：下面三个案例是复合案例。它们是从过去一年大约二十多家走过类似迁移的真实公司里抽取出的共性模式。数字、结构、结果具有代表性，但不对应任何一家具体公司。我们刻意选择了这种写法。目的是给你一个可以映射到自己情况的执行手册，而不是套着案例外壳的营销文案。

A 公司——Shopify DTC 服装品牌，约 $4M ARR

市场团队 1 人，零视频团队。每年向一家创意外包公司支付 $32K 的固定服务费，年产约 24 条产品视频和 12 条广告创意变体——全年约每月三条。产能瓶颈：外包公司每批次需要 3-4 周交付，对修改轮次抗拒明显。每次产品上新前，Slack 上都会有一轮关于"视频能不能赶上发布"的紧急讨论。

B 公司——B2B SaaS，约 $8M ARR

内容负责人 1 人，无内部视频团队。每年 $48K 拆给两位 freelance 视频师，用于销售解释视频、客户故事采访、Webinar 预告。客户故事必须真人现场采访拍摄，但解释视频和预告以动效或库存素材为主，可以脱离现场拍摄重做。产能瓶颈：freelancer 档期。上季度有两条计划视频被整整推迟一个季度，因为 freelancer 接到了报价更高的客户。

C 公司——中型媒体/PR 公司

内部视频团队：1 名资深制片人 + 2 名兼职 freelancer。团队及配套年综合成本约 $90K。视频作为客户综合服务包的一部分交付——短品牌片、社交切片、内训素材、季度性 Webinar 预告。产能瓶颈：每个客户合同都在持续 scope creep。每个客户都想多要"几个版本"，团队又不敢拒绝，怕影响整体合同续签。

起点不同，结构是一样的：一个无法弹性扩张的固定成本视频团队，吃掉的预算和产出不成正比。

第 1-2 周——审视当前支出

不要跳过这一步。这种迁移失败的最大原因，往往是团队还没盘清自己今天到底在花什么钱，就开始尝试 AI 工具。结果是砍掉了表层的浪费，却漏掉了结构性的成本。审计总共大约需要 8 个工时，分散到两周完成，是后面所有工作的地基。

盘四件事：

视频总预算。把真实数字拉出来：外包年费、freelancer 发票、工具订阅（Premiere、After Effects、Frame.io、库存素材），以及——尤其关键——内部时间。每周花 3 小时给外包写 brief 和审稿的市场经理，是真实成本。按全成本工时换算成美元。
视频分类。列出过去 12 个月所有交付过的视频，按用途分桶：付费广告、产品/功能视频、品牌/旗舰片、客户故事、培训、内部沟通、社交切片、二次剪辑。桶的分布比总数更重要。
产量与瓶颈。每季度多少条？卡在哪里？brief 审批？制作？修改轮次？分发？记录每个桶的中位交付周期。
每个桶的质量门槛。给每个桶打上"高风险"或"高产量"的标签。CEO 出镜的愿景视频是高风险；产品上新的第 14 条广告创意变体是高产量。两类工作所需的制作方式完全不同。

审计的输出是一个二维矩阵：一轴是风险（高 vs 中低），另一轴是产量（高 vs 低）。"高产量 / 中等风险"是要交给 agent 的桶；"低产量 / 高风险"是保留给人类的桶。中间两个象限是真正需要判断的地方。

三家公司的矩阵都得出大致相同的分布：70-80% 的视频量落在高产量 / 中等风险这个桶里，是 AI agent 真正可以接管的部分。剩下的 20-30%——投资人路演视频、创始人叙事、真实客户访谈、旗舰品牌片——目前继续保留人工主导。

第 3-4 周——并行试点 5 条视频

这是最重要的阶段。不要凭信念决策，不要凭厂商 demo 决策。要凭数据决策。

每家公司从已排期的视频中挑出 5 条——本来就要由外包或 freelancer 制作的视频——以并行的方式同时跑两条线：

Track A：现有外包或 freelancer，按一贯流程 brief 和制作。
Track B：端到端 AI agent（这里我们用的是 Genra），由同一个内部负责人用同一份 brief 跑。

同一份 brief 是关键。如果两边 brief 不一样，那你测试的是 brief 本身的质量，不是制作能力。直接用平时发给外包的真实 brief。

视频上线当周，按四个维度同时记录：

交付周期。从 brief 发出到第一版可用样片。不要测到"最终版本"，测到"如果今天必须发就能发"的程度。
成本。Track A：外包发票 + 内部审核工时。Track B：agent 订阅 / 积分成本 + 内部审核工时。
质量。3 位不知道哪条来自哪条线的内部评审打分，1-5 分，分别评估品牌契合度、信息清晰度、制作质感。
互动数据。如果视频确实进了真实渠道（付费广告、邮件、自然社交），记录真实表现指标——CTR、ROAS、完播率，按渠道惯用指标记录即可。

不要让团队凭主观挑出赢家，让数据自己说话。三家公司的结果一致：Track B 在交付周期上胜出（通常快 4-10 倍），在成本上胜出（通常便宜 5-10 倍）。在高产量桶上，质量基本持平；在旗舰桶上，agent 输得明显——这正是审计阶段所预测的，也正是矩阵存在的意义。

第 5-8 周——扩大规模（60% 交给 agent，40% 保留外包）

试点验证了能力，第 5-8 周验证的是运营。这是大多数 90 天迁移真正翻车的阶段——不是技术翻车，而是配套工作流没有立起来。

并行搭建四个产物：

1. brief 模板。agent 需要的输入和外包不一样。外包公司会消化模糊性，主动提问。agent 会精确按你写的内容生成。brief 模板需要包含：视频用途、目标受众、分发渠道、核心信息、辅助情节、品牌语气线索、必含素材、必避陷阱、输出格式。两页结构化文档，团队对一条标准视频应该能在 20 分钟内填完。

2. 品牌资产库。Logo 文件，HEX 色板，字体规则，语气画像（温暖、技术派、不羁——挑三个形容词，每个写一段，说明它"是什么"和"不是什么"）。如果有命名角色或固定的出镜形象，加入角色参考图。agent 在每次生成时复用这个库。这是规模化下保持品牌一致性的最大杠杆。

3. 评审与 QA 闭环。谁审什么？SLA 是多少？A 公司的市场经理 24 小时内审完所有视频；C 公司的资深制片人成为所有客户向视频的 QA 闸口。在第一次质量投诉发生之前，把这套机制落到工作流里。

4. 失败模式清单。规模化后的第一个月，你会发现某些类型的 brief 暂时跑不通。可能是某个产品类目，可能是真人客户证言，可能是某种语言。明确写下来。这份清单成为"这一条退回外包或 freelancer"的判断依据。

到第 8 周时，三家公司大约有 60% 的视频量走 agent，40% 走保留下来的外包或 freelancer。外包发票相比上一季度下降了约 50-60%。团队已经摸清了哪些 brief 跑得通、哪些跑不通。下面要讲的 Agent Owner 角色，开始在公司内部成形。

第 9-12 周——终止外包合同，搭起内部负责人

这是不连续点。第 8 周之前，团队跑的是一个明显有效的混合结构。诱惑是停在这里。不要停。混合模式漏成本——外包合同还在跑，团队还在双轨制作，节省下来的钱只是一部分。

这一阶段三个动作：

终止主要外包合同。如果合同里有，提前 30 天通知。A 公司是终止 $32K 的服务费合同；B 公司是释放两位 freelancer（其中一位转为按需合作的临时合同工，仅用于客户故事拍摄）；C 公司则重组内部团队——保留资深制片人，释放两位 freelancer 中的一位，把另一位的角色重塑为 AI 工作流运营。

立起 Agent Owner 角色。公司内部半-FTE，挂在市场或内容部门下。这个人负责 brief 库、品牌资产卫生、所有 agent 输出的 QA、以及保留下来的小份人工主导制作（给保留 freelancer 或外部合作方写旗舰片 brief）。三家公司里这个角色都是内部消化——没有新增雇员——分别由现有市场经理（A 公司）、内容负责人（B 公司）、重组后的制片人（C 公司）承担。

把节省下来的钱拿一部分回投。三家公司大约把节省额的 20-30% 重新投入：更好的 brief 工具、偶尔的旗舰片 freelance 预算、客户故事拍摄费。重点不是把 100% 的节省落到底线，而是为那一小块"必须保留人类参与"的工作留好预算。

第 90 天的终态：外包合同终止，内部负责人就位，brief 库成熟到 1-2 天就能完成下一个人的交接，视频总产量提升约 3-5x，总成本下降 60-72%。

成本算账——之前 vs 之后

整个迁移最有用的产物，就是事后的成本对比。下表是三家公司从第 1 天到第 90 天的年化支出对比。

公司	之前（年）	之后（年）	节省	产量变化
A——Shopify DTC 服装品牌	$32,000（外包年费）	$9,000（Genra 订阅 + 0.25 FTE 负责人）	-72%	视频量 +3.5x / 季度
B——B2B SaaS	$48,000（两位 freelancer）	$14,000（Genra + 减量后的客户故事 freelancer）	-71%	视频量 +4x / 季度
C——中型媒体/PR 公司	$90,000（1 资深 + 2 freelancer）	$36,000（资深转 Agent Owner + Genra + 1 位旗舰拍摄 freelancer）	-60%	客户交付物 +5x

这张表里有三件事值得拎出来。

第一，节省幅度很稳定：60-72%。我们在大约二十多家迁移案例里看到的都是这个区间。低于 50% 通常意味着团队没有真正切干净——长期跑混合模式。高于 75% 通常意味着旗舰片的人工制作砍得过狠，后面在品牌质感上要补回来。

第二，从长期看，产量倍数比成本倍数更重要。从 36 条/年涨到 130 条/年，意义不只是"更多内容"，而是你可以做真正的创意 A/B 测试、出多语言本地化版本、面向多渠道做切片重组、用小时级而不是周级响应市场事件。市场职能的形态会发生变化。

第三，节省额已经包含了半-FTE 的 Agent Owner 成本。这是净节省，不是毛节省减去新雇员。这个角色通常根本不需要新增编制，由现有市场或内容编制吸收。

他们刻意保留给人类的部分

这一节比其他任何一节都更影响这篇文章的可信度。如果你读到这里直觉上觉得"听起来太干净了"——很好，你的直觉是对的，目前没有 100% 全 AI 的方案，谁告诉你有，你都该警惕。下面是这三家公司刻意保留人工主导的部分，以及为什么。

创始人/高管出镜视频。当 CEO 向市场传递愿景、对投资人做更新、为团队记录文化时刻时，需要的是真人在真镜头前的画面。agent 没法复制"一个可识别的真实人物毫无修饰地表达观点"所传递的信任信号。
客户证言拍摄。真客户、真访谈、真画面。证言的价值在于它是可核实的。AI 生成的证言在观众一旦起疑的瞬间，价值归零。B 公司专门保留 freelancer 就是为了这件事。
单押旗舰片。年度品牌片、产品发布 sizzle reel、在主页上挂两年的"品类定义级"内容。当品牌把一次大注押在一条视频上时，对制作质感的要求超过当前 agent 稳定能达到的水平，掏钱做人工制作。
高风险投资人/PR 视频。任何要走到投资人、监管者、头部媒体面前的内容。一旦质量翻车，影响半径太大，不值得冒险。

Genra（以及一般意义上的端到端 agent）接管剩下的：

规模化产品视频——功能讲解、品类概览、对比剪辑。
广告创意变体——同一个产品 5 个 hook，同一个 hook 3 个 CTA，能跟上广告平台的 A/B 速度。
社交切片与重组——把长访谈切成 15 秒竖版、30 秒 LinkedIn 切片、90 秒 YouTube short。
内训视频——新人入职、产品培训、流程文档。
常态 Webinar 预告与活动推广。
本地化版本——同一条视频出多语言版本，无需重新拍摄。

大约 80% 的视频量落在 agent 这一栏，约 20% 在人类那一栏。这个比例在三家公司一致，也和我们看到的更广泛样本一致。

Agent Owner 角色（未来 5 年的新职能）

半-FTE，公司内部，汇报到市场、内容或运营——绝不是汇报到一个传统的创意制作生产线上。这个角色让整个模式跑起来，也是大多数公司目前还没想清楚的角色。

真正重要的能力：

品牌嗅觉。能看 5 个生成版本立刻挑出"这个对了"和"这个虽然技术上没错但语气跑偏了"。这是判断力，不是流程。
brief 撰写。这个角色里杠杆最高的能力。一份好 brief 能让第一版生成就可用；一份差 brief 浪费 3 轮生成。
QA 判断。能区分"真实质量问题"和"个人偏好"。知道什么时候发布、什么时候返修。
brief 迭代。把 brief 当成活的产物。生成偏离时，知道要修的是 brief、品牌资产库、还是审核流程。
资产卫生。保持品牌资产库的更新、组织、准确。资产库没人盯就会腐烂。

这份清单最值得注意的一点：里面没有任何"视频制作技能"。Agent Owner 角色不是替代初级视频制片人岗位——而是让那个岗位本来就没必要存在了。我们见过最强的人选都来自市场运营、内容战略、或增长营销。他们有品牌嗅觉和 brief 纪律。他们不需要会用 After Effects。

对在 2026 和 2027 年招初级到中级营销岗的公司来说，这是真正的成长岗位。比初级视频制片人岗位的杠杆高得多，因为这个人的产能不再受限于自己手动操作的速度。

Genra 在这套手册里的位置

这一节我们刻意写短，因为上面的手册不依赖于你选哪一个 agent。Genra 是我们做的 agent，也是这三家公司用的，但同样的框架适用于任何端到端 agent。

Genra 在这套体系里具体提供：

端到端制作闭环。brief 进，成片出。不需要切片拼接、不需要单独剪辑环节、不需要在生成、配音、剪辑之间手动接力。agent 跑完整条流水线：brief → 脚本 → 镜头 → 音频 → 字幕 → 剪辑 → 成片导出。
品牌资产库。Logo、色板、语气画像、角色参考一次上传。后续每次生成都从这个库里调用，这才是上百条生成里保持品牌一致性、不需要逐条人工盯防的关键。
brief 优先工作流。brief 是真正的产物，不是聊天 prompt。可以复用、版本管理、迭代。这是 Agent Owner 角色真正在打交道的工作单元。

如果你想用 Genra 跑第 3-4 周的试点，免费额度是 40 积分，无需信用卡。从 genra.ai 开始。如果你选了别的 agent，也完全没问题——这套手册依然适用。

核心要点

视频制作是成长期公司里最容易超支的项目之一——支出是结构性的，产能却没有同步增长。
90 天内砍掉 70% 成本，是这一群体里典型而非例外的结果。
迁移分阶段：审计（第 1-2 周）→ 试点（第 3-4 周）→ 扩大到 60%（第 5-8 周）→ 终止合同并搭建内部负责人（第 9-12 周）。
对高风险旗舰片、出镜真人、可核实的客户证言，保留人工主导。
新的内部角色叫"Agent Owner"——能力在 brief 撰写、品牌嗅觉、QA 判断、资产卫生，而不是制作技能。
成本节省随着产量增长会复利累积，市场职能的形态发生变化，不只是规模变化。
外包公司依然有角色——服务于高风险的 20%，而不是高产量的 80%。
把这次迁移再拖 12 个月的公司，相当于多花 $30-80K 才能产出和动作更快的同行一样多的视频。

常见问题

这些案例是真实的吗？

本文的三个案例是复合案例。它们综合了过去一年大约二十多家走过类似迁移的真实公司的共性模式。数字、结构、节省区间代表了这个群体的典型情况，但不对应任何一家具体的公司。我们之所以选择这种写法，是为了让手册可以被复制使用。一个具名的单一案例只告诉你"那一家"做了什么；复合案例告诉你"这一类"的结构性规律。

合理的成本节省区间是多少？

在我们看到的群体里，前 90 天的合理区间是 60-72%。低于 50% 通常意味着团队跑成永久性的混合模式，没有真正终止外包合同；高于 75% 通常意味着把旗舰片的人工制作砍得过狠，后面要在品牌质感上补回来。规划时把 65% 当基线，再根据自己的视频分布微调。

哪些类型的视频不应该交给 AI？

创始人和高管出镜视频、真实客户证言访谈、单押旗舰品牌片、高风险投资人/PR 视频。共同特征：信任信号必须来自可核实的真人，或者品牌把一次大注押在某条会挂 12-24 个月的视频上。这部分大约占视频总量的 20%，应当继续保留人工主导。

没有视频背景的人多久能熟练使用 AI agent 工作流？

对一个有市场或内容背景、不需要视频制作经验的人来说，brief 撰写和 QA 上手大约需要 2-3 周的实操，约 15-20 条生成视频量。品牌资产库和 brief 模板承担了大部分压力。最难培养的是 QA 判断力——分辨"可发布""返修""brief 本身坏了"。这部分通常要 30-60 天才稳定。

外包合作方会适应还是会被砍掉？

两种都有，看外包自身。能挺过来的外包是那些向价值链上游迁移的——做策略、做旗舰片、做品牌战役、做高风险交付。被淘汰的是商业模式建立在"按外包加价做大量视频"上的那些。我们看到优秀的外包公司在 18 个月里完成了转型，差的外包公司在 18 个月里失去了 60-80% 的客户。如果你现在的外包问的是"我们怎么和 AI 协作"而不是"我们要不要担心 AI"，他们大概率能挺过去。

上百条 AI 生成视频的品牌一致性怎么保证？

这正是品牌资产库要解决的问题。一份成文的品牌资产库——Logo、色板、语气画像、角色参考——agent 每次生成都调用，能产出比三个轮换 freelancer 团队更稳定的一致性。变量来源不是"AI 还是人类"，而是"品牌资产是被成文写下来了，还是只活在某个人脑子里"。把它写下来，才是真正的工作。

Genra 在这 90 天手册里如何嵌入？

Genra 是端到端 agent，跑完整条制作闭环：brief → 脚本 → 镜头 → 音频 → 字幕 → 剪辑 → 成片导出。是这三家公司在第 3-4 周试点和第 5-8 周扩大阶段所用的工具。这套 90 天手册本身是工具中立的——你换一个端到端 agent，框架依然适用。Genra 提供 40 积分免费额度，无需信用卡，可用于跑试点。从 genra.ai 开始。

关于作者
Genra AI 团队构建用 AI 帮企业制作专业视频内容的工具。关注 @GenraAI 获取产品更新、教程，以及关于 AI 视频领域的真实观察。