数字人短视频首条生成 | 从主题到成片

title: " 数字人短视频首条生成 | 从主题到成片" category: 人工智能 tags:

大模型API中转站
Pixelle-Video
AI短视频
ComfyUI
Edge-TTS
4SAPI description: "安装好 Pixelle-Video 后，手把手跑通第一条 AI 短视频：从输入主题、生成文案、拆分镜、选择 TTS、配置图片工作流，到 output 文件夹拿到成片，并演示如何用 4SAPI 做脚本 A/B 测试。"

前两篇我们已经把事情讲到这里：

第74期：为什么要自己搭数字人 Agent
第75期：怎么安装 Pixelle-Video、ComfyUI，并配置 4SAPI 写稿模型

这一篇开始动手生成第一条视频。

先别急着做人像口播。

先跑一条普通 AI 短视频。

原因很简单：

普通短视频链路更短，失败点更少。
先验证写稿、分镜、配图、配音、合成能跑通。
再上数字人，排错会轻松很多。

很多人第一次用这类工具，上来就传照片、开声音克隆、选动态视频、接云端工作流。

结果一失败，完全不知道是哪一步出问题。

是写稿模型没通？

是 ComfyUI 没开？

是 TTS 没出音频？

是视频模板不匹配？

是 output 没权限写文件？

全混在一起。

所以这篇只追求一个目标：

输入一句主题，生成一条能播放、能听、能找到文件的短视频。

画质先不卷。

先跑通。

1. 第一条视频的正确心态

第一次生成视频，不是做作品。

是做链路验收。

你要验的不是“这条视频能不能爆”，而是：

LLM 能不能写稿
分镜能不能生成
TTS 能不能出声音
图片工作流能不能出图
模板能不能合成
output 里能不能拿到 mp4

把它当工程测试，不要当发布作品。

第一条视频建议控制在：

3 个分镜
无 BGM
Edge-TTS
竖屏模板
静态图或轻量图片工作流

这样变量最少。

如果第一条能成功，再逐步增加：

BGM
更多分镜
动态视频模板
更好的图片模型
更强的写稿模型
数字人口播

这叫从最小闭环往上加复杂度。

不是胆小。

是省时间。

2. 快速创作页面：三栏到底管什么？

Pixelle-Video 的 Web 界面核心是三栏布局。

你可以这样理解：

左栏：内容从哪里来
中栏：声音和画面怎么生成
右栏：生成、进度、预览、结果

更细一点：

区域	负责什么	第一次怎么填
左栏内容	主题、文案、分镜数、BGM	AI 生成内容，3 个分镜，无 BGM
中栏声音	TTS 工作流、音色、参考音频	Edge-TTS，先不上传参考音频
中栏画面	图片/视频工作流、模板、尺寸	竖屏 default，静态或图片模板
右栏生成	运行任务、看进度、拿成片	点生成视频，等 output

官方 README 里也写了 Pixelle-Video 的流程：

文案生成 -> 配图规划 -> 逐帧处理 -> 视频合成

你在页面上填的每个选项，最后都会落到这条链路里。

所以排错时也按这条链路来。

不要一看到失败就全局乱改。

3. 左栏：先选 AI 生成内容

左栏通常会有两种内容模式：

AI 生成内容
固定文案内容

第一次建议选：

AI 生成内容

因为我们要同时测试 LLM 写稿能力。

主题可以写：

为什么普通人也应该搭建自己的本地 AI 工作流

不要写太大。

不要写：

请生成一个完整商业化数字人矩阵号运营方案，包含账号定位、内容策略、变现路径、投流计划、私域承接和团队管理

第一条视频不适合这种题。

它会让脚本变长、分镜变多、提示词变复杂。

我们只是验链路。

3.1 分镜数填 3

第一次分镜数填：

为什么不是 5 或 10？

因为每多一个分镜，就多一次或多几次生成：

多一段文案
多一张图
多一段音频
多一次合成
多一个失败点

3 个分镜足够验证：

开头
展开
收尾

也足够让你看到完整流程。

第一次生成成功后，再加到 5。

等 5 稳了，再考虑 8。

不要第一天就生成 20 分镜。

那不是教程，是压力测试。

3.2 BGM 先选无

背景音乐第一次选：

无 BGM

Pixelle-Video 支持内置音乐，也支持自定义音乐文件放到 bgm/ 文件夹。

但第一条视频不建议加。

原因是 BGM 会增加几个变量：

音频文件路径
音量混合
时长裁切
合成阶段出错概率
版权和可商用问题

等纯人声视频生成成功后，再加 BGM。

这样如果后来合成失败，你能知道是 BGM 这一步引入的问题。

4. 中栏：TTS 先用 Edge-TTS

TTS 负责把文案变成语音。

Pixelle-Video 支持 Edge-TTS、Index-TTS 等方案，也支持参考音频和声音克隆类工作流。

第一次建议选：

Edge-TTS

原因：

简单
成本低
不需要上传参考音频
排错容易
中文音色够用来测试链路

参考音频先不要上传。

声音克隆先不要开。

这不是因为声音克隆不好。

而是因为它牵涉两个新变量：

技术变量：参考音频格式、时长、质量、工作流是否支持
合规变量：你是否有权使用这个声音

第一条视频，别让它变复杂。

4.1 语音预览要先点

如果界面有“预览语音”，先输入一句测试：

大家好，这是我的第一条 AI 短视频测试。

然后点预览。

你要确认三件事：

能出声音
声音不是空白
语速能接受

如果 TTS 预览都失败，就不要点生成视频。

先排 TTS。

否则后面你会等半天，然后发现卡在音频合成。

4.2 声音怎么选？

第一次不用纠结。

选一个普通中文男声或女声即可。

如果你是科技教程类账号，我建议声音别太播音腔。

更自然的口吻会好一点。

但第一条测试片不追求账号调性。

只追求能生成。

5. 中栏：画面方案怎么选？

画面这一块最容易把人绕晕。

Pixelle-Video 支持多种媒体生成路线：

本地 ComfyUI 工作流
RunningHub 云端工作流
直连 API 媒体模型
静态模板
图片模板
视频模板

第一次你只要记住一个原则：

电脑弱，选简单。
电脑强，再本地。
想省心，走云端。

5.1 模板命名怎么看？

官方 README 里提到模板大致有这类命名：

static_*.html
image_*.html
video_*.html

可以这样理解：

模板	需要什么	第一次建议
`static_*`	不一定需要 AI 图片/视频	最稳
`image_*`	需要生成图片	可以试
`video_*`	需要生成视频片段	第一次不建议

如果你只是想验证链路，优先选 static 或 image。

如果一上来选 video 模板，背后可能要调用视频生成模型。

那就会牵涉显卡、RunningHub、Seedance、可灵、DashScope 等配置。

第一次没必要。

5.2 本地 ComfyUI 怎么选？

如果你已经装好了 ComfyUI，并且能打开：

http://127.0.0.1:8188

可以选择 selfhost 开头的图片工作流。

比如这类逻辑：

selfhost/image_*.json

但要注意：

选 selfhost，就意味着：

ComfyUI 必须正在运行
workflow 需要的模型必须齐全
custom node 不能缺
显存要够

如果你不确定模型有没有下好，第一条视频可以先不选复杂 selfhost 工作流。

5.3 RunningHub 怎么选？

如果你没有显卡，或者懒得管模型文件，可以选 runninghub 开头的工作流。

但前提是：

系统配置里已经填了 RunningHub API Key
账户有额度
工作流选择正确

如果你没有填 Key，却选了 RunningHub 工作流，生成时必然报错。

这不是 bug。

是路线没配齐。

5.4 第一条视频的推荐选择

普通用户建议：

模板：竖屏 default 或最简单 image/static 模板
画面：先不要选 video 动态模板
工作流：有显卡选轻量 selfhost，没有显卡选 runninghub 或静态模板
尺寸：竖屏 9:16

第一条视频发不发都无所谓。

你只是要确认：

画面不黑
声音不空
字幕/文案正常
mp4 能播放

6. 右栏：点生成以后看什么？

配置好以后，点生成视频。

正常情况下你会看到进度逐步走：

生成文案
生成配图
合成语音
合成视频

这里千万别关终端。

终端里的日志非常重要。

如果页面卡住，终端常常会告诉你真实原因。

比如：

LLM 返回格式不对
ComfyUI 连接失败
RunningHub Key 缺失
TTS 生成失败
ffmpeg 合成失败
output 写入失败

页面上的错误有时比较简短，终端日志更有用。

6.1 output 文件夹在哪里？

官方 README 里提到，生成完成后视频文件会保存在：

output/

如果你是 Windows 一键包，就在解压后的项目目录里找。

如果你是源码安装，就在 Pixelle-Video 项目目录里找。

第一次生成完成后，不要只看网页预览。

一定要去 output 目录确认：

mp4 文件存在
文件大小不是 0
能用本地播放器打开
声音正常
画面正常

这才算成片成功。

6.2 第一条视频怎么验收？

用这张表：

项目	合格标准
文件	output 里有 mp4
播放	本地播放器能打开
声音	有人声，不是空白
画面	不黑屏，不全是错误图
文案	和主题相关
分镜	数量基本匹配
时长	不异常短，不异常长

这张表过了，第一条就算成功。

至于文案是否惊艳、画面是否高级、声音是否像真人，那是第二轮优化。

7. 用 4SAPI 做脚本 A/B 测试

这一节是重点。

很多人用数字人 Agent，只盯着画面。

但短视频能不能跑起来，第一决定因素往往是脚本。

同一个主题，不同模型写出来的口播稿差异很大。

有的模型喜欢写大词。

有的模型适合写教程。

有的模型适合做带货。

有的模型便宜，适合批量出草稿。

有的模型贵，但适合最后润色。

这就是 4SAPI 能发挥作用的地方。

因为你可以用同一个入口测试不同模型：

Pixelle-Video
  -> 4SAPI Base URL
  -> 不同模型
  -> 同一条视频主题

不要一上来就问“哪个模型最好”。

正确问法是：

哪个模型最适合我的账号脚本？

7.1 三轮脚本测试法

以这个主题为例：

为什么普通人也应该搭建自己的本地 AI 工作流

你可以做三轮。

第一轮：低成本模型出 5 个方向。

要求：

请给我 5 个短视频口播切入角度。
每个角度包含：
1. 开头 3 秒钩子
2. 核心观点
3. 适合人群
4. 可能的标题

第二轮：选一个方向，让中等模型写 3 版脚本。

要求：

请围绕“本地 AI 工作流能降低试错成本”写 3 版 60 秒口播稿。
要求：
- 每版 3 个分镜
- 口语化
- 不要夸张承诺
- 每段不超过 80 字
- 结尾引导收藏

第三轮：用强模型精修最终版。

要求：

请把下面这版口播稿改得更像独立科技博主。
要求：
- 保留信息密度
- 减少 AI 味
- 每句话适合口播
- 不要使用“颠覆、革命、自动赚钱”等夸张词
- 输出三段分镜稿

这套方法比“一次生成最终视频”稳得多。

7.2 为什么脚本要分阶段？

因为不同任务对模型要求不同。

阶段	目标	模型档位
方向发散	多出想法	低成本模型
结构成稿	能讲清楚	中等模型
口吻精修	更像真人	强模型
合规检查	去夸张和风险	稳定模型

如果全程都用最贵模型，成本高。

如果全程都用最便宜模型，最终稿可能平。

4SAPI 的意义不是让你无脑换模型。

而是让你用同一套 Key、日志和成本口径，做模型分工。

这就是内容团队真正需要的能力。

8. 四个可直接用的口播 prompt

下面这四个 prompt，可以直接拿去试。

8.1 知识科普类

请根据主题生成一条 60 秒中文短视频口播稿。

主题：{主题}

要求：
1. 分成 3 个分镜。
2. 第一段用一个具体场景开头。
3. 第二段解释核心原理。
4. 第三段给出一个可执行建议。
5. 口语化，不要书面腔。
6. 不要使用夸张承诺。
7. 每段不超过 80 字。

8.2 工具教程类

请生成一条工具教程短视频口播稿。

工具：{工具名}
目标：{读者完成什么操作}

要求：
1. 分成 3 个分镜。
2. 第一句说明这条视频能帮读者解决什么问题。
3. 每段只讲一个操作。
4. 加入容易踩坑的提醒。
5. 结尾提示收藏。
6. 不要写成广告。

8.3 产品介绍类

请生成一条产品介绍口播稿。

产品：{产品名}
目标用户：{用户}
核心卖点：{卖点}

要求：
1. 不要夸大功效。
2. 不要使用绝对化用语。
3. 先讲用户痛点，再讲产品如何解决。
4. 分成 3 个分镜。
5. 每段适合口播，句子短一点。

8.4 评论区答疑类

请把下面这个评论改写成一条短视频答疑口播稿。

评论：{评论内容}

要求：
1. 开头先复述问题。
2. 中间给出 2 个判断标准。
3. 结尾给一个行动建议。
4. 语气像独立科技博主，不要像客服。
5. 分成 3 个分镜。

这些 prompt 可以先在 4SAPI 后台或你自己的脚本里测试。

哪个模型写得好，再把模型名放回 Pixelle-Video。

9. 第一条视频失败了怎么办？

先别慌。

按链路排。

主题输入
  -> LLM 写稿
  -> 分镜
  -> 图片/视频生成
  -> TTS
  -> 合成
  -> output

9.1 脚本没生成

看 LLM：

API Key 是否正确
Base URL 是否正确
模型名是否正确
余额是否够
请求是否超时

如果你用 4SAPI，重点看路径是否重复：

https://4sapi.com/v1/v1/chat/completions

这种就是典型错误。

9.2 脚本生成了，但没有图

看图像工作流：

选的是 selfhost 还是 runninghub
ComfyUI 是否打开
RunningHub Key 是否填写
workflow 所需模型是否存在
是否选了 video 模板导致调用视频模型

9.3 有图但没声音

看 TTS：

Edge-TTS 是否能预览
参考音频是否格式正确
是否选了声音克隆工作流
TTS workflow 是否缺节点

第一条视频建议不要上传参考音频。

先让 Edge-TTS 跑通。

9.4 有素材但没有 mp4

看合成：

ffmpeg 是否可用
output 目录是否可写
文件路径是否含特殊字符
视频模板是否报错
BGM 文件是否异常

如果你一开始就选无 BGM，这类问题会少很多。

10. 第一条成功后，下一步怎么优化？

第一条成功后，不要立刻开最大参数。

按这个顺序优化：

1. 先改脚本
2. 再改 TTS 声音
3. 再改模板
4. 再改图片风格
5. 最后上动态视频

为什么先改脚本？

因为脚本是最便宜的优化。

同样一条视频，画面不变，只改开头 3 秒，效果可能差很多。

你可以让 4SAPI 接不同模型，批量生成 10 个开头：

请为这个主题生成 10 个短视频开头。
要求：
- 每个开头不超过 20 字
- 不能标题党
- 要有具体场景或反差
- 面向 AI 工具爱好者

然后人工挑 2 个最好的，再生成视频。

这比盲目升级画质更划算。

11. 我的第一条视频推荐模板

如果你只是想照抄一套配置，可以用这个：

内容模式：AI 生成内容
主题：为什么普通人也应该搭建自己的本地 AI 工作流
分镜数：3
BGM：无
TTS：Edge-TTS 中文音色
参考音频：不上传
模板：竖屏 static 或 image default
图像工作流：有显卡选轻量 selfhost，无显卡选 runninghub 或静态模板
LLM：4SAPI + 低成本中文模型

生成完成后，检查 output。

如果成功，把同一个主题换一个模型再跑一次。

对比：

哪个脚本更自然
哪个分镜更合理
哪个提示词更容易出图
哪个成本更低

这才是 AI 短视频工作流真正有意思的地方。

不是一次生成。

是快速试错。

12. 生成前检查清单

点生成按钮前，建议按这个清单过一遍：

[ ] Pixelle-Video 页面能正常打开
[ ] LLM 测试已经成功
[ ] 主题只写一句话
[ ] 分镜数先填 3
[ ] BGM 先选无
[ ] TTS 先选 Edge-TTS
[ ] 参考音频先不上传
[ ] 模板先选 static 或 image，不选 video
[ ] selfhost 工作流确认 ComfyUI 已启动
[ ] runninghub 工作流确认 API Key 已填写
[ ] output 目录路径能正常写入
[ ] 第一条只验链路，不追求最终画质

如果这张清单里有三项以上不确定，先不要生成。

把不确定的地方补齐。

这样比失败以后翻日志更省时间。

13. 总结

Pixelle-Video 第一条短视频不要做复杂。

最稳路线是：

AI 生成内容
3 个分镜
无 BGM
Edge-TTS
简单竖屏模板
静态图或轻量图片工作流
output 验收

你要先证明这条链路能跑：

主题 -> 文案 -> 分镜 -> 配图 -> 配音 -> 合成 -> mp4

跑通之后，再考虑画质、音色、模板、动态视频和数字人。

4SAPI 在这一篇里的价值，不是“填一个 Key”。

而是帮你做脚本层的模型 A/B：

低成本模型出草稿
中等模型写结构
强模型做口吻精修
统一日志复盘成本

短视频不是只拼生成速度。

它拼的是：

低成本多试几版，然后把最好的那版做精。

下一篇，我们再上数字人口播：

上传一张正脸照片
选择配音
配置数字人工作流
生成一个会说话的人

参考资料：

Pixelle-Video GitHub：https://github.com/AIDC-AI/Pixelle-Video
Pixelle-Video 配置示例：https://github.com/AIDC-AI/Pixelle-Video/blob/main/config.example.yaml
Pixelle-Video 安装文档：https://aidc-ai.github.io/Pixelle-Video/zh/getting-started/installation/
Pixelle-Video 配置文档：https://aidc-ai.github.io/Pixelle-Video/zh/getting-started/configuration/
4SAPI 接入文档：https://4sapi.apifox.cn/