title: " 本地数字人Agent | 4SAPI写稿省钱" category: 人工智能 tags:
- 大模型API中转站
- 数字人
- Agent
- Pixelle-Video
- ComfyUI
- 4SAPI description: "手把手讲清楚如何在自己电脑上部署 Pixelle-Video 和 ComfyUI,跑通数字人口播、AI写稿、配图、配音和合成流程,并说明如何用 4SAPI 统一管理写稿模型、成本和日志。"
最近抖音上有一类数字人 Agent 很火。
给它一个主题,它能自动写口播稿、配图、配音、合成视频,最后给你一条可以直接发的竖屏短视频。
看起来很玄。
但拆开以后你会发现,它不是魔法。
它本质上是几类能力串在一起:
选题/脚本生成
-> 分镜规划
-> 图片生成
-> 配音
-> 数字人驱动
-> 视频合成
这条链路里,真正贵的不是某一个按钮,而是把模型、工作流、素材、成本和排错都串起来。
如果你是独立创作者、小团队运营、开发者,完全可以先在自己电脑上把这套流程跑通。
这篇就用开源项目 Pixelle-Video 做一遍本地部署。
它底层接 ComfyUI,可以做 AI 短视频、数字人口播、图生视频、动作迁移等工作流。截至 2026 年 6 月 23 日我复核时,GitHub 上已经是两万多 star 的项目,说明不是一个无人维护的小玩具。
我会重点讲三件事:
- 怎么把 Pixelle-Video 和 ComfyUI 在自己电脑上跑起来。
- 怎么配置写稿模型、出图、配音和数字人口播。
- 为什么建议把写稿模型这一层接到 4SAPI,统一 Key、模型、成本和日志。
先说结论。
如果你只是想低成本试水:
Pixelle-Video + ComfyUI + Edge-TTS + 4SAPI/DeepSeek 类低成本模型
就够你把第一条数字人内容跑出来了。
如果你要商业化批量生产,再考虑 RunningHub、Seedance、可灵、OpenAI 图像模型这些付费能力。
别一上来就买一堆课、办一堆会员、租一堆 GPU。
先把链路跑通。
1. 为什么我建议先本地搭一套?
现在市面上的数字人服务,卖点一般是:
- 自动写脚本
- 自动生成分镜
- 自动配图
- 自动配音
- 自动生成口播视频
- 支持带货模板
- 支持批量生产
听起来像一整套产品。
但从技术视角看,它经常是几块开源能力或第三方 API 拼起来:
大语言模型负责写稿
ComfyUI 负责图片/视频工作流
TTS 负责配音
数字人模型负责嘴型和表情
前端页面负责把参数做成按钮
这就是为什么你会看到一些数字人系统价格很高,但效果差异并没有想象中那么大。
贵的地方不一定是模型本身,而是信息差、交付包装、模板和售后。
对独立科技博主来说,我更关心两个问题:
第一,这东西能不能自己跑?
第二,跑起来以后成本和质量能不能被我控制?
Pixelle-Video 的价值就在这里。
它不是让你立刻拥有一个完美的商业数字人平台。
它更像一个可拆解、可修改、可复盘的数字人 Agent 样板间。
你跑通以后,至少能看懂市面上数字人产品背后的链路:
- 哪一步在写稿
- 哪一步在出图
- 哪一步在调用云端
- 哪一步最耗钱
- 哪一步最容易失败
- 哪些地方适合换成自己的模型网关
这比盲买一个黑盒服务更重要。
2. 准备清单:先别把问题搞复杂
先准备这些东西:
| 项目 | 用途 | 建议 |
|---|---|---|
| Pixelle-Video | 数字人 Agent 主程序 | 开源项目,负责页面和流程编排 |
| ComfyUI | 图片/视频工作流引擎 | 本地默认地址通常是 127.0.0.1:8188 |
| AI IDE | 安装和排错 | Cursor、Claude Code、Codex、Trae 都行 |
| 4SAPI Key | 写稿模型统一入口 | 用来接 DeepSeek、GPT、Claude、GLM 等模型 |
| DeepSeek 或其他文本模型 | 生成脚本/分镜 | 可以通过 4SAPI 或官方 Key 接入 |
| Windows 或 Mac 电脑 | 本地运行 | 16G 内存以上更稳,有 NVIDIA 显卡更适合跑视频 |
这里我建议把“写稿模型”这层走 4SAPI。
原因很简单。
数字人 Agent 一条视频可能会多次调用大语言模型:
- 生成主题大纲
- 写口播稿
- 拆分镜
- 生成画面提示词
- 生成标题
- 改写成带货话术
- 批量生成多版本脚本
如果你后面想比较 DeepSeek、GPT、Claude、GLM、Qwen 的脚本质量,不要每换一个模型就重新改一遍软件配置。
通过 4SAPI 这类大模型 API 中转站,比较理想的状态是:
Base URL: https://4sapi.com/v1
API Key: 你的 4SAPI 令牌
Model: 从 4SAPI 模型广场复制的模型名
模型换了,入口不变。
成本、日志、Key 也能集中管理。
这是独立创作者后面做批量内容时非常实用的一点。
这里强调一下,4SAPI 在这篇里的角色是合法合规的模型 API 网关,用来统一模型调用、成本和日志,不是用来绕过平台规则或处理未授权内容。
3. 安装路线:能用整合包就先用整合包
Pixelle-Video 官方 README 里提供了 Windows 整合包路线,也提供了源码部署路线。
如果你是第一次装,我建议优先走整合包。
原因不是源码部署多难,而是数字人链路里依赖太多:
- Python
- Node 或前端依赖
- ComfyUI
- 模型文件
- 工作流 JSON
- TTS
- FFmpeg
- 浏览器访问端口
第一次就全部手搓,排错成本会很高。
3.1 让 AI IDE 帮你装
打开 Codex、Cursor、Claude Code 或 Trae,把下面这段发给它:
请帮我在当前电脑安装并启动 Pixelle-Video 和 ComfyUI。
要求:
1. 优先参考官方 GitHub README。
2. 如果有 Windows 整合包,优先用整合包路线。
3. 如果走源码部署,请一步一步给出可复制命令。
4. 不要把 API Key 写进代码。
5. 安装完成后告诉我两个浏览器地址:
- Pixelle-Video 页面地址
- ComfyUI 页面地址
6. 如果命令报错,我会把报错贴给你,你继续排查。
你也可以直接让它拉项目:
请帮我安装 https://github.com/AIDC-AI/Pixelle-Video ,并启动它依赖的 ComfyUI。请先读取 README,再给我适合 Windows/Mac 的命令。
这里有个小建议:别让 AI IDE 一口气跑太多命令。
让它一步一步来。
装依赖、启动服务、打开浏览器,分开验证。
这样出错时你知道是哪一步出的问题。
3.2 怎么判断装好了?
正常情况下你要看到两个页面。
第一个是 Pixelle-Video 页面。
官方说明里本地页面常见地址类似:
http://localhost:8501
第二个是 ComfyUI 页面。
默认常见地址是:
http://127.0.0.1:8188
两个页面都能打开,才算基础环境跑起来。
如果 Pixelle-Video 能打开,但 ComfyUI 打不开,后面出图大概率会失败。
如果 ComfyUI 能打开,但 Pixelle-Video 打不开,多半是主程序没启动、端口被占用,或者 Python 依赖没装完整。
4. 系统配置:先把写稿模型接稳
进入 Pixelle-Video 后,先找系统配置。
这一页看起来会有很多输入框,但第一次不用全部填。
你重点看三块:
- 大语言模型
- ComfyUI 配置
- API 媒体模型
第一次跑通,配置越少越好。
4.1 大语言模型:推荐用 4SAPI 做统一入口
写稿模型负责脚本、分镜和提示词。
如果你只填一个 DeepSeek 官方 Key,也能用。
但如果你后面想换模型、看日志、控制成本,我更建议走 4SAPI。
通用思路是:
Provider/类型:OpenAI Compatible 或 Custom
Base URL:https://4sapi.com/v1
API Key:你的 4SAPI Key
Model:从 4SAPI 模型广场复制完整模型名
如果 Pixelle-Video 页面里有“快速选择 DeepSeek”,你也可以先选 DeepSeek,把它跑通。
但我更建议你理解配置本质:
软件不是只能接 DeepSeek。
只要它支持 OpenAI 兼容接口,就可以接 4SAPI 这类统一网关。
这样你后面可以测试:
- 便宜模型:批量生成短脚本
- 强模型:优化高价值带货口播
- 中文模型:改写更自然的中文口吻
- 长上下文模型:处理长产品资料
我一般会把数字人 Agent 的写稿层拆成两个档:
| 任务 | 模型选择 |
|---|---|
| 批量草稿、分镜、标题备选 | 低成本模型 |
| 最终口播稿、复杂产品卖点提炼 | 更强模型 |
4SAPI 的好处是,你可以把这些模型放在同一个入口里,用不同 model 名切换,而不是在多个平台之间来回复制 Key。
4.2 ComfyUI:本地地址先填死
ComfyUI 配置建议先选本地。
地址填:
http://127.0.0.1:8188
然后点测试连接。
如果测试失败,先别急着改别的 API。
排查顺序:
ComfyUI 是否启动
端口是否是 8188
浏览器能不能打开 127.0.0.1:8188
防火墙是否拦截
Pixelle-Video 和 ComfyUI 是否在同一台机器
本机方案下,ComfyUI API Key 通常可以空着。
RunningHub 那一截先不用填,除非你准备走云端工作流。
4.3 API 媒体模型:第一轮可以全空
Pixelle-Video 支持接一些云端图片、视频和媒体模型。
这类能力通常效果更稳,但会花钱。
第一轮建议全空。
先用:
本地 ComfyUI
Edge-TTS
低成本文本模型
把最小链路跑通。
后面你真的要提高画质,再回来接:
- RunningHub
- OpenAI 图像模型
- Seedance
- 可灵
- DashScope
这叫渐进式升级。
不要第一天就把所有钥匙都填进去。
5. 快速创作:先跑一条普通短视频
配置保存后,先别急着上数字人。
先跑一条普通 AI 短视频,验证整条流水线。
一般在“快速创作”里,界面会分成三列。
5.1 左边:输入主题
选择 AI 生成内容。
主题可以写简单一点:
为什么普通人也应该搭建自己的本地 AI 工作流
分镜数填 3。
第一次不要填 8、10、20。
分镜越多,失败点越多。
背景音乐先选无。
这不是为了省事,而是为了减少变量。
5.2 中间:配音和画面
配音先选带 Edge 字样的方案。
Edge-TTS 的好处是简单、免费、开箱即用。
你可以先预览一下声音,不满意再换。
画面模板先选竖屏 default。
图像方案这里要看电脑:
| 电脑情况 | 建议 |
|---|---|
| Windows + NVIDIA 显卡 | 可以试 selfhost 开头的 ComfyUI 工作流 |
| 普通轻薄本 | 先用更轻的工作流,别一上来跑大模型 |
| Mac | 本地跑部分图像/视频工作流会受限,可以考虑云端 API |
如果你走 4SAPI 写稿,本地 ComfyUI 出图,Edge-TTS 配音,这条链路的文本成本会比较低。
这也是我比较推荐的入门组合。
5.3 右边:生成视频
点生成视频。
然后等它跑完:
写稿
-> 分镜
-> 配图
-> 配音
-> 合成
第一次慢很正常。
模型加载、依赖初始化、工作流启动都会耗时间。
生成完以后,去 output 目录找成片。
如果你看到一条能播放的竖屏视频,恭喜,主链路已经通了。
先别纠结画面是否完美。
第一阶段的目标是:
能不能从一句主题,自动跑出一条视频?
不是:
能不能立刻打败专业剪辑师?
这两个目标差很多。
6. 数字人口播:从一张照片到会说话的人
快速创作能跑通后,再切到数字人口播。
这一块才是大家最感兴趣的地方。
但我要先提醒一句:
数字人合成涉及肖像权、声音权和内容合规。
请只使用你自己有权使用的人像和声音,不要拿别人的照片、明星脸、员工照片去做未经授权的口播。
技术能做到,不代表你该这么做。
6.1 左边:上传人物形象
上传一张清晰正脸照片。
建议满足:
- 正脸
- 光线清楚
- 遮挡少
- 分辨率不要太低
- 表情自然
上传后下面会出现预览图。
能看到脸,说明素材加载成功。
6.2 配音:先选本地合成
合成方式如果有多个选项,第一次建议选本地合成。
本地合成一般对应 Edge-TTS,简单稳定。
如果你选了 ComfyUI 合成,可能还要额外配置配音工作流。
这对新手不友好。
参考音频可以先空着。
除非你明确要做声音克隆,而且有合法授权。
6.3 中间:数字人服务配置
数字人生成通常比普通静态配图更重。
如果本机跑不动,就要走云端工作流。
常见路线是接 RunningHub:
前置图片生成服务:RunningHub 云端
工作流:digital/image.json
口播视频合成服务:RunningHub 云端
工作流:digital/combination.json
RunningHub API Key 要回到系统配置里填。
如果没有 Key,可以去 RunningHub 注册,看当前是否有新用户额度。
这里我不建议你一开始就充值很多。
先用免费额度或小额测试,跑一条样片,看效果是否满足你的账号需求。
6.4 右边:生成模式
一般会有两类模式:
带货模式
自定义模式
带货模式适合你输入商品名,让 AI 帮你写推广词。
自定义模式适合你自己粘贴口播稿。
第一次建议用自定义模式。
因为你能控制文本,方便判断数字人效果。
可以先用这段测试:
大家好,我是你的 AI 工作流测试员。今天这条视频不是为了炫技,而是验证一件事:一台普通电脑,加上一套开源工具,能不能跑出完整的数字人口播链路。我们先看嘴型、语速和画面稳定性,再决定是否继续优化。
点生成。
等进度条跑完。
如果最后提示正在拼接视频,并生成了成片,说明数字人链路也跑通了。
7. 真实效果预期:能用,但别神化
我建议你用三个标准看第一条数字人视频:
能不能看?
能不能发?
能不能规模化优化?
不要用“电影级数字人”这个标准。
本地开源链路的常见问题包括:
- 嘴型偶尔漂
- 头部动作偏机械
- 眼神不够自然
- 图片构图偶尔歪
- 复杂动作容易崩
- 长文本更容易出错
- 视频工作流对显卡要求高
但它的价值也很明显:
- 成本低
- 可拆解
- 可魔改
- 可批量试选题
- 可快速验证口播脚本
- 不被单一平台模板锁死
换句话说,它不一定适合你直接做品牌广告大片。
但非常适合做:
- 选题测试
- 口播脚本验证
- 私域内容更新
- 产品教程草稿
- 内部培训视频
- 小红书/抖音矩阵号初版素材
尤其对独立创作者来说,最贵的不是生成一条视频,而是不断试错。
如果你能把一次试错成本降下来,就已经很值。
8. 用 4SAPI 做写稿层:这一步很适合商业化
很多人搭数字人,只盯着画面。
但真正决定内容能不能转化的,经常是脚本。
一个数字人 Agent 要商业化,写稿层至少要解决这些问题:
- 不同产品的卖点提炼
- 不同人群的话术改写
- 开头 3 秒钩子
- 评论区问题反向生成脚本
- 多版本 A/B 测试
- 敏感词和夸大宣传控制
- 成本统计
- 团队协作
这就是 4SAPI 适合放进来的地方。
你可以把 Pixelle-Video 看成内容生产前台,把 4SAPI 看成模型调用后台。
推荐架构是:
Pixelle-Video
-> 4SAPI/OpenAI-compatible Base URL
-> DeepSeek / GPT / Claude / GLM / Qwen 等文本模型
-> ComfyUI / RunningHub / 其他媒体工作流
这样有几个好处。
第一,模型统一。
同一套数字人流程里,你可以按任务切模型:
| 环节 | 建议模型档位 |
|---|---|
| 标题备选 | 低成本模型 |
| 分镜草稿 | 低成本模型 |
| 产品卖点提炼 | 中高质量模型 |
| 口播稿精修 | 强中文写作模型 |
| 长资料总结 | 长上下文模型 |
第二,Key 不乱。
不要把一堆模型平台 Key 填得到处都是。
一个团队里,如果每个人电脑上都有不同 Key,很快就会出现:
- 不知道谁在花钱
- 不知道哪个模型效果好
- 不知道失败是 Key 问题还是模型问题
- 离职或换电脑时配置散落
用 4SAPI 统一入口,至少能把这件事收敛到一套令牌和日志里。
第三,成本可复盘。
数字人视频不一定一次成片。
你可能会一条选题生成 10 版脚本、6 版标题、3 版分镜。
如果没有日志,你只会感觉“AI 又花钱了”。
如果有统一日志,你可以看清楚:
哪个模型最贵
哪个步骤调用最多
哪类选题最耗 token
哪批脚本最后转化更好
这才是内容工厂真正需要的数据。
9. 排错清单:先看这几类问题
9.1 写稿不出来
优先检查:
- API Key 是否填对
- Base URL 是否填对
- 模型名是否完整复制
- 账户是否有余额
- 是否选错了 Provider 类型
如果你用 4SAPI,常见地址是:
https://4sapi.com/v1
注意不要重复写路径。
错误示例:
https://4sapi.com/v1/v1/chat/completions
https://4sapi.com/v1/chat/completions/chat/completions
有的工具要填 base_url,有的工具要填完整 chat/completions 地址。
看页面字段名,不要凭感觉填。
9.2 ComfyUI 连接失败
检查:
浏览器能不能打开 http://127.0.0.1:8188
ComfyUI 是否还在运行
端口是否被占用
工作流需要的模型是否下载
Pixelle-Video 配置里是否选了本地 ComfyUI
很多出图失败不是软件坏了,而是工作流引用的模型文件没放到对应目录。
9.3 跳出来要某个 API Key
多半是你选了云端方案。
比如:
- OpenAI 图像模型
- Seedance
- 可灵
- RunningHub
- DashScope
如果你想本机免费跑,回到工作流选择,改成 selfhost 或本地方案。
如果你确实要云端效果,就去对应平台填 Key,并设置预算。
9.4 数字人视频不自然
先调整这些:
- 换一张更清晰的正脸照
- 缩短文案
- 降低语速
- 换一个声音
- 减少夸张表情词
- 先用 10 到 20 秒短文案测试
不要一上来生成 3 分钟。
数字人越长,瑕疵越明显。
9.5 生成很慢
正常。
慢的地方通常在:
- 本地模型首次加载
- ComfyUI 出图
- 视频工作流
- 云端排队
- 最后合成
如果你只是在测试选题,可以先用静态图模板。
等脚本验证通过,再上动态视频和数字人。
10. 我的建议:把它当工作流,不要当神机
这类数字人 Agent 最容易让人上头。
因为第一次看到一张照片开口说话,会很震撼。
但真正做内容,还是要回到三个问题:
你的选题有没有需求?
你的脚本有没有信息密度?
你的画面有没有信任感?
工具只能降低生产成本。
它不能替你理解用户。
所以我建议按这个顺序迭代:
第一天:跑通 Pixelle-Video + ComfyUI
第二天:接入 4SAPI 写稿模型
第三天:跑 10 条普通短视频脚本
第四天:挑 3 条做数字人口播
第五天:看完播率、评论和转化,再决定是否升级云端视频模型
千万不要反过来。
很多人第一天就买最贵的云端工作流,最后发现自己连什么选题能发都没想清楚。
这才是最贵的。
11. 适合谁,不适合谁
适合:
- 想做短视频但不想天天剪辑的独立创作者
- 想验证数字人带货流程的小团队
- 想研究 Agent 工作流的开发者
- 想搭建内部培训视频流水线的公司
- 想把写稿模型、成本和日志统一起来的内容团队
不适合:
- 完全不愿意排错的人
- 追求一次生成电影级效果的人
- 没有人像授权还想做真人复刻的人
- 不愿意检查内容合规的人
- 只想买一个按钮然后立刻自动赚钱的人
本地数字人 Agent 是工具,不是印钞机。
但如果你能把它和选题、脚本、投放、复盘结合起来,它确实能把内容生产效率拉高一大截。
12. 总结
这篇的核心就一句话:
先用 Pixelle-Video 和 ComfyUI 在本地跑通数字人 Agent,再用 4SAPI 把写稿模型、Key、成本和日志统一起来。
Pixelle-Video 负责把“写稿、分镜、配图、配音、合成”做成可操作流程。
ComfyUI 负责本地图片和视频工作流。
Edge-TTS 负责低成本配音。
RunningHub、Seedance、可灵这些付费能力,负责后续提高画质和稳定性。
4SAPI 则适合做模型网关:
- 统一 Base URL
- 统一 API Key
- 统一模型选择
- 统一调用日志
- 统一成本复盘
你不用一开始就搭一个完美平台。
先跑出第一条片。
再看哪一步最痛。
然后再升级哪一步。
这才是普通人搭数字人 Agent 最稳的路线。
项目地址:
- Pixelle-Video:https://github.com/AIDC-AI/Pixelle-Video
- 4SAPI 官网:https://4sapi.com/
- 4SAPI 接入文档:https://4sapi.apifox.cn/
发布前建议再复核一次 Pixelle-Video README、4SAPI 后台模型名和当前价格,因为开源项目安装方式、模型分组、API 地址说明都有可能更新。