title: " 数字人短视频首条生成 | 从主题到成片" category: 人工智能 tags:
- 大模型API中转站
- Pixelle-Video
- AI短视频
- ComfyUI
- Edge-TTS
- 4SAPI description: "安装好 Pixelle-Video 后,手把手跑通第一条 AI 短视频:从输入主题、生成文案、拆分镜、选择 TTS、配置图片工作流,到 output 文件夹拿到成片,并演示如何用 4SAPI 做脚本 A/B 测试。"
前两篇我们已经把事情讲到这里:
第74期:为什么要自己搭数字人 Agent
第75期:怎么安装 Pixelle-Video、ComfyUI,并配置 4SAPI 写稿模型
这一篇开始动手生成第一条视频。
先别急着做人像口播。
先跑一条普通 AI 短视频。
原因很简单:
普通短视频链路更短,失败点更少。
先验证写稿、分镜、配图、配音、合成能跑通。
再上数字人,排错会轻松很多。
很多人第一次用这类工具,上来就传照片、开声音克隆、选动态视频、接云端工作流。
结果一失败,完全不知道是哪一步出问题。
是写稿模型没通?
是 ComfyUI 没开?
是 TTS 没出音频?
是视频模板不匹配?
是 output 没权限写文件?
全混在一起。
所以这篇只追求一个目标:
输入一句主题,生成一条能播放、能听、能找到文件的短视频。
画质先不卷。
先跑通。
1. 第一条视频的正确心态
第一次生成视频,不是做作品。
是做链路验收。
你要验的不是“这条视频能不能爆”,而是:
- LLM 能不能写稿
- 分镜能不能生成
- TTS 能不能出声音
- 图片工作流能不能出图
- 模板能不能合成
- output 里能不能拿到 mp4
把它当工程测试,不要当发布作品。
第一条视频建议控制在:
3 个分镜
无 BGM
Edge-TTS
竖屏模板
静态图或轻量图片工作流
这样变量最少。
如果第一条能成功,再逐步增加:
BGM
更多分镜
动态视频模板
更好的图片模型
更强的写稿模型
数字人口播
这叫从最小闭环往上加复杂度。
不是胆小。
是省时间。
2. 快速创作页面:三栏到底管什么?
Pixelle-Video 的 Web 界面核心是三栏布局。
你可以这样理解:
左栏:内容从哪里来
中栏:声音和画面怎么生成
右栏:生成、进度、预览、结果
更细一点:
| 区域 | 负责什么 | 第一次怎么填 |
|---|---|---|
| 左栏内容 | 主题、文案、分镜数、BGM | AI 生成内容,3 个分镜,无 BGM |
| 中栏声音 | TTS 工作流、音色、参考音频 | Edge-TTS,先不上传参考音频 |
| 中栏画面 | 图片/视频工作流、模板、尺寸 | 竖屏 default,静态或图片模板 |
| 右栏生成 | 运行任务、看进度、拿成片 | 点生成视频,等 output |
官方 README 里也写了 Pixelle-Video 的流程:
文案生成 -> 配图规划 -> 逐帧处理 -> 视频合成
你在页面上填的每个选项,最后都会落到这条链路里。
所以排错时也按这条链路来。
不要一看到失败就全局乱改。
3. 左栏:先选 AI 生成内容
左栏通常会有两种内容模式:
AI 生成内容
固定文案内容
第一次建议选:
AI 生成内容
因为我们要同时测试 LLM 写稿能力。
主题可以写:
为什么普通人也应该搭建自己的本地 AI 工作流
不要写太大。
不要写:
请生成一个完整商业化数字人矩阵号运营方案,包含账号定位、内容策略、变现路径、投流计划、私域承接和团队管理
第一条视频不适合这种题。
它会让脚本变长、分镜变多、提示词变复杂。
我们只是验链路。
3.1 分镜数填 3
第一次分镜数填:
3
为什么不是 5 或 10?
因为每多一个分镜,就多一次或多几次生成:
- 多一段文案
- 多一张图
- 多一段音频
- 多一次合成
- 多一个失败点
3 个分镜足够验证:
开头
展开
收尾
也足够让你看到完整流程。
第一次生成成功后,再加到 5。
等 5 稳了,再考虑 8。
不要第一天就生成 20 分镜。
那不是教程,是压力测试。
3.2 BGM 先选无
背景音乐第一次选:
无 BGM
Pixelle-Video 支持内置音乐,也支持自定义音乐文件放到 bgm/ 文件夹。
但第一条视频不建议加。
原因是 BGM 会增加几个变量:
- 音频文件路径
- 音量混合
- 时长裁切
- 合成阶段出错概率
- 版权和可商用问题
等纯人声视频生成成功后,再加 BGM。
这样如果后来合成失败,你能知道是 BGM 这一步引入的问题。
4. 中栏:TTS 先用 Edge-TTS
TTS 负责把文案变成语音。
Pixelle-Video 支持 Edge-TTS、Index-TTS 等方案,也支持参考音频和声音克隆类工作流。
第一次建议选:
Edge-TTS
原因:
- 简单
- 成本低
- 不需要上传参考音频
- 排错容易
- 中文音色够用来测试链路
参考音频先不要上传。
声音克隆先不要开。
这不是因为声音克隆不好。
而是因为它牵涉两个新变量:
技术变量:参考音频格式、时长、质量、工作流是否支持
合规变量:你是否有权使用这个声音
第一条视频,别让它变复杂。
4.1 语音预览要先点
如果界面有“预览语音”,先输入一句测试:
大家好,这是我的第一条 AI 短视频测试。
然后点预览。
你要确认三件事:
- 能出声音
- 声音不是空白
- 语速能接受
如果 TTS 预览都失败,就不要点生成视频。
先排 TTS。
否则后面你会等半天,然后发现卡在音频合成。
4.2 声音怎么选?
第一次不用纠结。
选一个普通中文男声或女声即可。
如果你是科技教程类账号,我建议声音别太播音腔。
更自然的口吻会好一点。
但第一条测试片不追求账号调性。
只追求能生成。
5. 中栏:画面方案怎么选?
画面这一块最容易把人绕晕。
Pixelle-Video 支持多种媒体生成路线:
本地 ComfyUI 工作流
RunningHub 云端工作流
直连 API 媒体模型
静态模板
图片模板
视频模板
第一次你只要记住一个原则:
电脑弱,选简单。
电脑强,再本地。
想省心,走云端。
5.1 模板命名怎么看?
官方 README 里提到模板大致有这类命名:
static_*.html
image_*.html
video_*.html
可以这样理解:
| 模板 | 需要什么 | 第一次建议 |
|---|---|---|
static_* |
不一定需要 AI 图片/视频 | 最稳 |
image_* |
需要生成图片 | 可以试 |
video_* |
需要生成视频片段 | 第一次不建议 |
如果你只是想验证链路,优先选 static 或 image。
如果一上来选 video 模板,背后可能要调用视频生成模型。
那就会牵涉显卡、RunningHub、Seedance、可灵、DashScope 等配置。
第一次没必要。
5.2 本地 ComfyUI 怎么选?
如果你已经装好了 ComfyUI,并且能打开:
http://127.0.0.1:8188
可以选择 selfhost 开头的图片工作流。
比如这类逻辑:
selfhost/image_*.json
但要注意:
选 selfhost,就意味着:
ComfyUI 必须正在运行
workflow 需要的模型必须齐全
custom node 不能缺
显存要够
如果你不确定模型有没有下好,第一条视频可以先不选复杂 selfhost 工作流。
5.3 RunningHub 怎么选?
如果你没有显卡,或者懒得管模型文件,可以选 runninghub 开头的工作流。
但前提是:
系统配置里已经填了 RunningHub API Key
账户有额度
工作流选择正确
如果你没有填 Key,却选了 RunningHub 工作流,生成时必然报错。
这不是 bug。
是路线没配齐。
5.4 第一条视频的推荐选择
普通用户建议:
模板:竖屏 default 或最简单 image/static 模板
画面:先不要选 video 动态模板
工作流:有显卡选轻量 selfhost,没有显卡选 runninghub 或静态模板
尺寸:竖屏 9:16
第一条视频发不发都无所谓。
你只是要确认:
画面不黑
声音不空
字幕/文案正常
mp4 能播放
6. 右栏:点生成以后看什么?
配置好以后,点生成视频。
正常情况下你会看到进度逐步走:
生成文案
生成配图
合成语音
合成视频
这里千万别关终端。
终端里的日志非常重要。
如果页面卡住,终端常常会告诉你真实原因。
比如:
- LLM 返回格式不对
- ComfyUI 连接失败
- RunningHub Key 缺失
- TTS 生成失败
- ffmpeg 合成失败
- output 写入失败
页面上的错误有时比较简短,终端日志更有用。
6.1 output 文件夹在哪里?
官方 README 里提到,生成完成后视频文件会保存在:
output/
如果你是 Windows 一键包,就在解压后的项目目录里找。
如果你是源码安装,就在 Pixelle-Video 项目目录里找。
第一次生成完成后,不要只看网页预览。
一定要去 output 目录确认:
mp4 文件存在
文件大小不是 0
能用本地播放器打开
声音正常
画面正常
这才算成片成功。
6.2 第一条视频怎么验收?
用这张表:
| 项目 | 合格标准 |
|---|---|
| 文件 | output 里有 mp4 |
| 播放 | 本地播放器能打开 |
| 声音 | 有人声,不是空白 |
| 画面 | 不黑屏,不全是错误图 |
| 文案 | 和主题相关 |
| 分镜 | 数量基本匹配 |
| 时长 | 不异常短,不异常长 |
这张表过了,第一条就算成功。
至于文案是否惊艳、画面是否高级、声音是否像真人,那是第二轮优化。
7. 用 4SAPI 做脚本 A/B 测试
这一节是重点。
很多人用数字人 Agent,只盯着画面。
但短视频能不能跑起来,第一决定因素往往是脚本。
同一个主题,不同模型写出来的口播稿差异很大。
有的模型喜欢写大词。
有的模型适合写教程。
有的模型适合做带货。
有的模型便宜,适合批量出草稿。
有的模型贵,但适合最后润色。
这就是 4SAPI 能发挥作用的地方。
因为你可以用同一个入口测试不同模型:
Pixelle-Video
-> 4SAPI Base URL
-> 不同模型
-> 同一条视频主题
不要一上来就问“哪个模型最好”。
正确问法是:
哪个模型最适合我的账号脚本?
7.1 三轮脚本测试法
以这个主题为例:
为什么普通人也应该搭建自己的本地 AI 工作流
你可以做三轮。
第一轮:低成本模型出 5 个方向。
要求:
请给我 5 个短视频口播切入角度。
每个角度包含:
1. 开头 3 秒钩子
2. 核心观点
3. 适合人群
4. 可能的标题
第二轮:选一个方向,让中等模型写 3 版脚本。
要求:
请围绕“本地 AI 工作流能降低试错成本”写 3 版 60 秒口播稿。
要求:
- 每版 3 个分镜
- 口语化
- 不要夸张承诺
- 每段不超过 80 字
- 结尾引导收藏
第三轮:用强模型精修最终版。
要求:
请把下面这版口播稿改得更像独立科技博主。
要求:
- 保留信息密度
- 减少 AI 味
- 每句话适合口播
- 不要使用“颠覆、革命、自动赚钱”等夸张词
- 输出三段分镜稿
这套方法比“一次生成最终视频”稳得多。
7.2 为什么脚本要分阶段?
因为不同任务对模型要求不同。
| 阶段 | 目标 | 模型档位 |
|---|---|---|
| 方向发散 | 多出想法 | 低成本模型 |
| 结构成稿 | 能讲清楚 | 中等模型 |
| 口吻精修 | 更像真人 | 强模型 |
| 合规检查 | 去夸张和风险 | 稳定模型 |
如果全程都用最贵模型,成本高。
如果全程都用最便宜模型,最终稿可能平。
4SAPI 的意义不是让你无脑换模型。
而是让你用同一套 Key、日志和成本口径,做模型分工。
这就是内容团队真正需要的能力。
8. 四个可直接用的口播 prompt
下面这四个 prompt,可以直接拿去试。
8.1 知识科普类
请根据主题生成一条 60 秒中文短视频口播稿。
主题:{主题}
要求:
1. 分成 3 个分镜。
2. 第一段用一个具体场景开头。
3. 第二段解释核心原理。
4. 第三段给出一个可执行建议。
5. 口语化,不要书面腔。
6. 不要使用夸张承诺。
7. 每段不超过 80 字。
8.2 工具教程类
请生成一条工具教程短视频口播稿。
工具:{工具名}
目标:{读者完成什么操作}
要求:
1. 分成 3 个分镜。
2. 第一句说明这条视频能帮读者解决什么问题。
3. 每段只讲一个操作。
4. 加入容易踩坑的提醒。
5. 结尾提示收藏。
6. 不要写成广告。
8.3 产品介绍类
请生成一条产品介绍口播稿。
产品:{产品名}
目标用户:{用户}
核心卖点:{卖点}
要求:
1. 不要夸大功效。
2. 不要使用绝对化用语。
3. 先讲用户痛点,再讲产品如何解决。
4. 分成 3 个分镜。
5. 每段适合口播,句子短一点。
8.4 评论区答疑类
请把下面这个评论改写成一条短视频答疑口播稿。
评论:{评论内容}
要求:
1. 开头先复述问题。
2. 中间给出 2 个判断标准。
3. 结尾给一个行动建议。
4. 语气像独立科技博主,不要像客服。
5. 分成 3 个分镜。
这些 prompt 可以先在 4SAPI 后台或你自己的脚本里测试。
哪个模型写得好,再把模型名放回 Pixelle-Video。
9. 第一条视频失败了怎么办?
先别慌。
按链路排。
主题输入
-> LLM 写稿
-> 分镜
-> 图片/视频生成
-> TTS
-> 合成
-> output
9.1 脚本没生成
看 LLM:
- API Key 是否正确
- Base URL 是否正确
- 模型名是否正确
- 余额是否够
- 请求是否超时
如果你用 4SAPI,重点看路径是否重复:
https://4sapi.com/v1/v1/chat/completions
这种就是典型错误。
9.2 脚本生成了,但没有图
看图像工作流:
- 选的是 selfhost 还是 runninghub
- ComfyUI 是否打开
- RunningHub Key 是否填写
- workflow 所需模型是否存在
- 是否选了 video 模板导致调用视频模型
9.3 有图但没声音
看 TTS:
- Edge-TTS 是否能预览
- 参考音频是否格式正确
- 是否选了声音克隆工作流
- TTS workflow 是否缺节点
第一条视频建议不要上传参考音频。
先让 Edge-TTS 跑通。
9.4 有素材但没有 mp4
看合成:
- ffmpeg 是否可用
- output 目录是否可写
- 文件路径是否含特殊字符
- 视频模板是否报错
- BGM 文件是否异常
如果你一开始就选无 BGM,这类问题会少很多。
10. 第一条成功后,下一步怎么优化?
第一条成功后,不要立刻开最大参数。
按这个顺序优化:
1. 先改脚本
2. 再改 TTS 声音
3. 再改模板
4. 再改图片风格
5. 最后上动态视频
为什么先改脚本?
因为脚本是最便宜的优化。
同样一条视频,画面不变,只改开头 3 秒,效果可能差很多。
你可以让 4SAPI 接不同模型,批量生成 10 个开头:
请为这个主题生成 10 个短视频开头。
要求:
- 每个开头不超过 20 字
- 不能标题党
- 要有具体场景或反差
- 面向 AI 工具爱好者
然后人工挑 2 个最好的,再生成视频。
这比盲目升级画质更划算。
11. 我的第一条视频推荐模板
如果你只是想照抄一套配置,可以用这个:
内容模式:AI 生成内容
主题:为什么普通人也应该搭建自己的本地 AI 工作流
分镜数:3
BGM:无
TTS:Edge-TTS 中文音色
参考音频:不上传
模板:竖屏 static 或 image default
图像工作流:有显卡选轻量 selfhost,无显卡选 runninghub 或静态模板
LLM:4SAPI + 低成本中文模型
生成完成后,检查 output。
如果成功,把同一个主题换一个模型再跑一次。
对比:
- 哪个脚本更自然
- 哪个分镜更合理
- 哪个提示词更容易出图
- 哪个成本更低
这才是 AI 短视频工作流真正有意思的地方。
不是一次生成。
是快速试错。
12. 生成前检查清单
点生成按钮前,建议按这个清单过一遍:
[ ] Pixelle-Video 页面能正常打开
[ ] LLM 测试已经成功
[ ] 主题只写一句话
[ ] 分镜数先填 3
[ ] BGM 先选无
[ ] TTS 先选 Edge-TTS
[ ] 参考音频先不上传
[ ] 模板先选 static 或 image,不选 video
[ ] selfhost 工作流确认 ComfyUI 已启动
[ ] runninghub 工作流确认 API Key 已填写
[ ] output 目录路径能正常写入
[ ] 第一条只验链路,不追求最终画质
如果这张清单里有三项以上不确定,先不要生成。
把不确定的地方补齐。
这样比失败以后翻日志更省时间。
13. 总结
Pixelle-Video 第一条短视频不要做复杂。
最稳路线是:
AI 生成内容
3 个分镜
无 BGM
Edge-TTS
简单竖屏模板
静态图或轻量图片工作流
output 验收
你要先证明这条链路能跑:
主题 -> 文案 -> 分镜 -> 配图 -> 配音 -> 合成 -> mp4
跑通之后,再考虑画质、音色、模板、动态视频和数字人。
4SAPI 在这一篇里的价值,不是“填一个 Key”。
而是帮你做脚本层的模型 A/B:
- 低成本模型出草稿
- 中等模型写结构
- 强模型做口吻精修
- 统一日志复盘成本
短视频不是只拼生成速度。
它拼的是:
低成本多试几版,然后把最好的那版做精。
下一篇,我们再上数字人口播:
上传一张正脸照片
选择配音
配置数字人工作流
生成一个会说话的人
参考资料:
- Pixelle-Video GitHub:https://github.com/AIDC-AI/Pixelle-Video
- Pixelle-Video 配置示例:https://github.com/AIDC-AI/Pixelle-Video/blob/main/config.example.yaml
- Pixelle-Video 安装文档:https://aidc-ai.github.io/Pixelle-Video/zh/getting-started/installation/
- Pixelle-Video 配置文档:https://aidc-ai.github.io/Pixelle-Video/zh/getting-started/configuration/
- 4SAPI 接入文档:https://4sapi.apifox.cn/