Genra Video Creator:开源 AI 视频技能,让任何 AI Agent 自主创建视频
· Genra AI我们开源了驱动 Genra 视频创作工作流的 AI 技能文件。现在任何自主 Agent——Claude Code、Codex、Gemini CLI,或你自己搭建的——都可以通过程序化方式创建和编辑视频。
什么是 Genra Video Creator?
Genra Video Creator 是一套开源的 AI 技能文件集合,让自主 Agent 能够控制 Genra 视频创作平台。它包含可复用的最佳实践工作流和模板,用于生成不同类型的视频——从多镜头叙事到电商产品展示,再到品牌氛围片。
简单来说:Genra 是视频编辑器,这些技能文件是教 AI Agent 如何使用它的操作手册。它们编码了专业的制作知识——美术方向、角色一致性、节奏控制、音频混音——让 Agent 能够自主生产专业质量的视频。
仓库地址:github.com/genra-ai/video-creator
为什么要开源 AI 视频技能?
Genra 编辑器中已经内置了一个 AI Agent。打开聊天面板,描述你想要什么,它就会创建视频。无需任何设置。
但开发者需要更多。他们想把视频创建集成到自己的 AI 工作流中——从 CI/CD 流水线触发视频生成、让 Claude Code 在写完代码后顺便制作一个演示视频、或者构建自定义的视频生成应用。
这就是这些技能文件的用途。它们是 Markdown 格式的指令文件,任何自主 Agent 都能阅读和执行。Agent 通过它们学习 Genra API、理解视频制作的最佳实践,并执行复杂的多步骤工作流——只需引用一个文件链接。
工作原理
架构设计刻意简洁:
- 技能文件——Markdown 文档,包含分步指令、API 端点和制作规则
- HTTP API——简单直接的 REST API,地址是
https://action.genra.ai/。不需要 SDK,只是 JSON 格式的 POST 请求 - 任何 Agent——Claude Code、Codex、Gemini CLI、OpenClaw,或任何能读 Markdown、能发 HTTP 请求的系统
API 接口极其精简:
curl -s -X POST https://action.genra.ai/ \
-H "Content-Type: application/json" \
-d '{"session_key":"SK","action":"get_state"}'
三个核心动作:get_state 读取当前项目状态,click 与界面元素交互,edit 修改文本内容。快速操作同步返回结果,长时操作(如生成视频片段)返回任务 ID,轮询直到完成。
文件上传使用简单的 multipart 端点:
curl -s -X POST https://action.genra.ai/upload \
-F "session_key=SK" -F "[email protected]"
返回的 asset_id 可以在后续命令中用 $ 前缀引用。
7 个内置技能
仓库包含七个可直接使用的技能,每个都编码了一套完整的视频创作工作流:
1. 脚本转视频(Script to Video)
旗舰技能。将多镜头剧本转换为角色一致、灯光完整、配音到位的成品视频。
工作方式:Agent 分析你的剧本,为每个镜头补充视觉描述(画风、灯光、镜头角度),生成图片并进行角色一致性检查,制作配音和背景音乐,最后组装并导出成品视频。
核心特性:自动角色一致性验证。Agent 按角色分组检查所有镜头,对比发色、服装、标志性配饰等视觉特征,在继续之前重新生成任何不一致的镜头。
支持格式:中文对话剧本、英文剧本(INT./EXT. 格式)、以及其他语言的叙事文本。
2. 口播视频(Talking Head)
生成固定画框、镜头间无缝衔接的单人口播视频——适合社交媒体内容、教育讲解和产品介绍。
核心特性:尾帧串联。每个镜头的结束帧自动成为下一个镜头的开始帧,创造自然的连续性。Agent 在每个转场处验证景深对齐、人物大小和垂直位置的一致性。
3. 产品展示(Product Showcase)
将产品图片和卖点转换为电商视频,针对淘宝、京东、亚马逊和 Shopify 等平台优化。
核心特性:自动分镜。Agent 研究竞品视频,识别核心价值主张,优先排列 3-5 个卖点,生成 8-12 个镜头的分镜脚本(30-60 秒),每个镜头只展示一个卖点。
默认格式:9:16 竖屏(720x1280),适合产品主图视频。
4. 品牌氛围片(Brand Story)
创建高端情感品牌片,灵感来自 Nike、Apple 和 Red Bull 风格——强调情绪、视觉美学和动态节奏,而非功能驱动的宣传。
核心特性:节奏韵律控制。Agent 在快剪(1-1.5秒)和慢镜头(2.5-4秒)之间交替切换,营造电影般的张力。旁白刻意极简(最多 5-10 个词),让画面和音乐承载情感叙事。
5. 照片 Vlog(Photo Vlog)
将 3-10 张真实照片转换为 30-60 秒的叙事型 Vlog 视频,带镜头运动和背景音乐。
核心特性:情感排序。Agent 不按时间顺序排列照片,而是分析每张照片的情感强度和叙事潜力,然后沿着情感弧线排列,实现最大的感染力。镜头运动(推进、平移、拉远)在每个镜头间自动交替。
6. 视频编辑(Video Edit)
通过三种模式管理后期修改和质量保证:单项编辑、系统性质检或批量修改。
核心特性:多级 QA。Agent 下载并检查每一帧画面,检查 A 类缺陷(数字、边框、水印)、B 类连续性问题(相邻镜头)和 C 类冲突(描述与画面不匹配)。问题通过定向 I2I 编辑或完全重新生成来修复。
7. 视频续写(Video Continuation)
在保持原始风格、角色、音乐和叙事流的同时,为现有项目添加新镜头。
核心特性:选择性生成。Agent 绝不触碰已有内容——只为新镜头生成音频和视频。角色定义和场景描述被原封不动地保留,防止新旧片段衔接处出现角色漂移。
快速开始
三种使用方式,从最简单到最灵活:
方式一:内置 Agent(无需设置)
打开 genra.ai,进入一个项目,使用聊天面板。内置 Agent 已经加载了所有技能,直接描述你想要什么就行。
方式二:Claude Code 插件
两条命令安装插件:
/plugin marketplace add genra-ai/video-creator
/plugin install genra@genra-ai
然后连接:
/genra:start
所有技能变为 /genra:<skill-name> 命令,自动发现。例如 /genra:script-to-video 将剧本转为成片,/genra:product-showcase 将产品图片转为电商视频。
方式三:任何 AI Agent
将你的 Agent 指向技能文件 URL:
https://github.com/genra-ai/video-creator/blob/main/plugins/genra/commands/start.md
Agent 读取指令,通过 API 认证,获得对 Genra 编辑器的完整控制权。适用于 Codex、Gemini CLI、OpenClaw,或任何能读 Markdown 和发 HTTP 请求的 Agent。
为什么用 Markdown 技能而不是 SDK?
传统 API 集成需要 SDK、版本管理、依赖安装和特定语言的实现。Genra Video Creator 采用了不同的方式:「SDK」就是一个 Markdown 文件,任何 AI Agent 都能读。
这个设计有几个优势:
- 零依赖。不需要安装包,没有版本冲突,没有构建步骤。Agent 读一个 URL 就能开始工作。
- Agent 原生。AI Agent 更擅长理解自然语言指令而非解析 API 文档。Markdown 技能用 Agent 的母语来沟通。
- 自动更新。指向 GitHub URL,Agent 永远获取最新版本。不需要推送 SDK 更新。
- 跨平台。适用于任何平台上的任何 Agent。Claude Code、Codex、Gemini CLI——只要能读文本、能发 HTTP 请求就行。
- 嵌入领域知识。技能文件不仅描述 API 端点,还编码了制作最佳实践。脚本转视频技能知道如何检查角色一致性,品牌片技能知道如何控制剪辑节奏。这些知识直接传递给 Agent。
多语言支持
所有技能同时提供英文和中文版本。中文版本位于 plugins/genra/commands/cn/ 目录,带 _cn 后缀:
script-to-video_cn.md— 脚本转视频talking-head_cn.md— 口播视频product-showcase_cn.md— 产品展示brand-story_cn.md— 品牌氛围片photo-vlog_cn.md— 照片 Vlogvideo-edit_cn.md— 视频编辑video-continuation_cn.md— 视频续写
你可以用它做什么?
一些场景:
- 自动化产品视频流水线:将电商商品目录接入产品展示技能,为每个 SKU 自动生成主图视频。
- 内容工厂:编写 20 个视频脚本,排队后让 Agent 连夜生产。醒来就有 20 个成品视频。
- 定制视频生成应用:搭建一个 Web 应用,用户输入需求,后端 Agent 调用 Genra,用户几分钟后就能拿到成品视频。
- CI/CD 集成:新功能上线时自动生成演示视频。Agent 读取 changelog,编写脚本,制作视频。
- 多语言视频本地化:制作一个视频,用视频续写技能生成 10 种语言的版本,每个都有母语级配音。
常见问题
什么是 Genra Video Creator?
Genra Video Creator 是一套开源的 AI 技能文件集合,教自主 Agent 如何通过 API 控制 Genra 视频编辑器。包含脚本转视频、口播视频、产品展示、品牌氛围片、照片 Vlog 等预置工作流。
哪些 AI Agent 可以使用?
支持 Claude Code(原生插件)、OpenClaw、Codex、Gemini CLI,以及任何能读取 Markdown 指令并发送 HTTP 请求的自主 Agent。不需要安装 SDK。
需要安装 SDK 吗?
不需要。Genra 的 API 是纯 HTTP 接口,向 https://action.genra.ai/ 发送 POST 请求加 JSON 数据即可。任何能发 HTTP 请求的语言或工具都可以控制 Genra。
免费吗?
技能文件和插件在 GitHub 上开源免费。使用视频创作平台需要 Genra 账号。
能贡献新技能吗?
可以。仓库是开源的。Fork、按现有模式创建新的技能 Markdown 文件、提交 Pull Request。符合质量标准的社区技能会被合并,所有用户都能使用。
开始使用
仓库地址:github.com/genra-ai/video-creator
最快路径:打开 Genra,使用内置 Agent,开始创建。如果需要程序化控制,安装 Claude Code 插件或将任何 AI Agent 指向技能文件 URL。技能文件处理制作的复杂性——你只需要告诉 Agent 你想要什么视频。