title: " 本地数字人Agent | 4SAPI写稿省钱" category: 人工智能 tags:


最近抖音上有一类数字人 Agent 很火。

给它一个主题,它能自动写口播稿、配图、配音、合成视频,最后给你一条可以直接发的竖屏短视频。

看起来很玄。

但拆开以后你会发现,它不是魔法。

它本质上是几类能力串在一起:

选题/脚本生成
  -> 分镜规划
  -> 图片生成
  -> 配音
  -> 数字人驱动
  -> 视频合成

这条链路里,真正贵的不是某一个按钮,而是把模型、工作流、素材、成本和排错都串起来。

如果你是独立创作者、小团队运营、开发者,完全可以先在自己电脑上把这套流程跑通。

这篇就用开源项目 Pixelle-Video 做一遍本地部署。

它底层接 ComfyUI,可以做 AI 短视频、数字人口播、图生视频、动作迁移等工作流。截至 2026 年 6 月 23 日我复核时,GitHub 上已经是两万多 star 的项目,说明不是一个无人维护的小玩具。

我会重点讲三件事:

先说结论。

如果你只是想低成本试水:

Pixelle-Video + ComfyUI + Edge-TTS + 4SAPI/DeepSeek 类低成本模型

就够你把第一条数字人内容跑出来了。

如果你要商业化批量生产,再考虑 RunningHub、Seedance、可灵、OpenAI 图像模型这些付费能力。

别一上来就买一堆课、办一堆会员、租一堆 GPU。

先把链路跑通。

1. 为什么我建议先本地搭一套?

现在市面上的数字人服务,卖点一般是:

听起来像一整套产品。

但从技术视角看,它经常是几块开源能力或第三方 API 拼起来:

大语言模型负责写稿
ComfyUI 负责图片/视频工作流
TTS 负责配音
数字人模型负责嘴型和表情
前端页面负责把参数做成按钮

这就是为什么你会看到一些数字人系统价格很高,但效果差异并没有想象中那么大。

贵的地方不一定是模型本身,而是信息差、交付包装、模板和售后。

对独立科技博主来说,我更关心两个问题:

第一,这东西能不能自己跑?
第二,跑起来以后成本和质量能不能被我控制?

Pixelle-Video 的价值就在这里。

它不是让你立刻拥有一个完美的商业数字人平台。

它更像一个可拆解、可修改、可复盘的数字人 Agent 样板间。

你跑通以后,至少能看懂市面上数字人产品背后的链路:

这比盲买一个黑盒服务更重要。

2. 准备清单:先别把问题搞复杂

先准备这些东西:

项目 用途 建议
Pixelle-Video 数字人 Agent 主程序 开源项目,负责页面和流程编排
ComfyUI 图片/视频工作流引擎 本地默认地址通常是 127.0.0.1:8188
AI IDE 安装和排错 Cursor、Claude Code、Codex、Trae 都行
4SAPI Key 写稿模型统一入口 用来接 DeepSeek、GPT、Claude、GLM 等模型
DeepSeek 或其他文本模型 生成脚本/分镜 可以通过 4SAPI 或官方 Key 接入
Windows 或 Mac 电脑 本地运行 16G 内存以上更稳,有 NVIDIA 显卡更适合跑视频

这里我建议把“写稿模型”这层走 4SAPI。

原因很简单。

数字人 Agent 一条视频可能会多次调用大语言模型:

如果你后面想比较 DeepSeek、GPT、Claude、GLM、Qwen 的脚本质量,不要每换一个模型就重新改一遍软件配置。

通过 4SAPI 这类大模型 API 中转站,比较理想的状态是:

Base URL: https://4sapi.com/v1
API Key: 你的 4SAPI 令牌
Model: 从 4SAPI 模型广场复制的模型名

模型换了,入口不变。

成本、日志、Key 也能集中管理。

这是独立创作者后面做批量内容时非常实用的一点。

这里强调一下,4SAPI 在这篇里的角色是合法合规的模型 API 网关,用来统一模型调用、成本和日志,不是用来绕过平台规则或处理未授权内容。

3. 安装路线:能用整合包就先用整合包

Pixelle-Video 官方 README 里提供了 Windows 整合包路线,也提供了源码部署路线。

如果你是第一次装,我建议优先走整合包。

原因不是源码部署多难,而是数字人链路里依赖太多:

第一次就全部手搓,排错成本会很高。

3.1 让 AI IDE 帮你装

打开 Codex、Cursor、Claude Code 或 Trae,把下面这段发给它:

请帮我在当前电脑安装并启动 Pixelle-Video 和 ComfyUI。

要求:
1. 优先参考官方 GitHub README。
2. 如果有 Windows 整合包,优先用整合包路线。
3. 如果走源码部署,请一步一步给出可复制命令。
4. 不要把 API Key 写进代码。
5. 安装完成后告诉我两个浏览器地址:
   - Pixelle-Video 页面地址
   - ComfyUI 页面地址
6. 如果命令报错,我会把报错贴给你,你继续排查。

你也可以直接让它拉项目:

请帮我安装 https://github.com/AIDC-AI/Pixelle-Video ,并启动它依赖的 ComfyUI。请先读取 README,再给我适合 Windows/Mac 的命令。

这里有个小建议:别让 AI IDE 一口气跑太多命令。

让它一步一步来。

装依赖、启动服务、打开浏览器,分开验证。

这样出错时你知道是哪一步出的问题。

3.2 怎么判断装好了?

正常情况下你要看到两个页面。

第一个是 Pixelle-Video 页面。

官方说明里本地页面常见地址类似:

http://localhost:8501

第二个是 ComfyUI 页面。

默认常见地址是:

http://127.0.0.1:8188

两个页面都能打开,才算基础环境跑起来。

如果 Pixelle-Video 能打开,但 ComfyUI 打不开,后面出图大概率会失败。

如果 ComfyUI 能打开,但 Pixelle-Video 打不开,多半是主程序没启动、端口被占用,或者 Python 依赖没装完整。

4. 系统配置:先把写稿模型接稳

进入 Pixelle-Video 后,先找系统配置。

这一页看起来会有很多输入框,但第一次不用全部填。

你重点看三块:

第一次跑通,配置越少越好。

4.1 大语言模型:推荐用 4SAPI 做统一入口

写稿模型负责脚本、分镜和提示词。

如果你只填一个 DeepSeek 官方 Key,也能用。

但如果你后面想换模型、看日志、控制成本,我更建议走 4SAPI。

通用思路是:

Provider/类型:OpenAI Compatible 或 Custom
Base URL:https://4sapi.com/v1
API Key:你的 4SAPI Key
Model:从 4SAPI 模型广场复制完整模型名

如果 Pixelle-Video 页面里有“快速选择 DeepSeek”,你也可以先选 DeepSeek,把它跑通。

但我更建议你理解配置本质:

软件不是只能接 DeepSeek。
只要它支持 OpenAI 兼容接口,就可以接 4SAPI 这类统一网关。

这样你后面可以测试:

我一般会把数字人 Agent 的写稿层拆成两个档:

任务 模型选择
批量草稿、分镜、标题备选 低成本模型
最终口播稿、复杂产品卖点提炼 更强模型

4SAPI 的好处是,你可以把这些模型放在同一个入口里,用不同 model 名切换,而不是在多个平台之间来回复制 Key。

4.2 ComfyUI:本地地址先填死

ComfyUI 配置建议先选本地。

地址填:

http://127.0.0.1:8188

然后点测试连接。

如果测试失败,先别急着改别的 API。

排查顺序:

ComfyUI 是否启动
端口是否是 8188
浏览器能不能打开 127.0.0.1:8188
防火墙是否拦截
Pixelle-Video 和 ComfyUI 是否在同一台机器

本机方案下,ComfyUI API Key 通常可以空着。

RunningHub 那一截先不用填,除非你准备走云端工作流。

4.3 API 媒体模型:第一轮可以全空

Pixelle-Video 支持接一些云端图片、视频和媒体模型。

这类能力通常效果更稳,但会花钱。

第一轮建议全空。

先用:

本地 ComfyUI
Edge-TTS
低成本文本模型

把最小链路跑通。

后面你真的要提高画质,再回来接:

这叫渐进式升级。

不要第一天就把所有钥匙都填进去。

5. 快速创作:先跑一条普通短视频

配置保存后,先别急着上数字人。

先跑一条普通 AI 短视频,验证整条流水线。

一般在“快速创作”里,界面会分成三列。

5.1 左边:输入主题

选择 AI 生成内容。

主题可以写简单一点:

为什么普通人也应该搭建自己的本地 AI 工作流

分镜数填 3。

第一次不要填 8、10、20。

分镜越多,失败点越多。

背景音乐先选无。

这不是为了省事,而是为了减少变量。

5.2 中间:配音和画面

配音先选带 Edge 字样的方案。

Edge-TTS 的好处是简单、免费、开箱即用。

你可以先预览一下声音,不满意再换。

画面模板先选竖屏 default。

图像方案这里要看电脑:

电脑情况 建议
Windows + NVIDIA 显卡 可以试 selfhost 开头的 ComfyUI 工作流
普通轻薄本 先用更轻的工作流,别一上来跑大模型
Mac 本地跑部分图像/视频工作流会受限,可以考虑云端 API

如果你走 4SAPI 写稿,本地 ComfyUI 出图,Edge-TTS 配音,这条链路的文本成本会比较低。

这也是我比较推荐的入门组合。

5.3 右边:生成视频

点生成视频。

然后等它跑完:

写稿
  -> 分镜
  -> 配图
  -> 配音
  -> 合成

第一次慢很正常。

模型加载、依赖初始化、工作流启动都会耗时间。

生成完以后,去 output 目录找成片。

如果你看到一条能播放的竖屏视频,恭喜,主链路已经通了。

先别纠结画面是否完美。

第一阶段的目标是:

能不能从一句主题,自动跑出一条视频?

不是:

能不能立刻打败专业剪辑师?

这两个目标差很多。

6. 数字人口播:从一张照片到会说话的人

快速创作能跑通后,再切到数字人口播。

这一块才是大家最感兴趣的地方。

但我要先提醒一句:

数字人合成涉及肖像权、声音权和内容合规。

请只使用你自己有权使用的人像和声音,不要拿别人的照片、明星脸、员工照片去做未经授权的口播。

技术能做到,不代表你该这么做。

6.1 左边:上传人物形象

上传一张清晰正脸照片。

建议满足:

上传后下面会出现预览图。

能看到脸,说明素材加载成功。

6.2 配音:先选本地合成

合成方式如果有多个选项,第一次建议选本地合成。

本地合成一般对应 Edge-TTS,简单稳定。

如果你选了 ComfyUI 合成,可能还要额外配置配音工作流。

这对新手不友好。

参考音频可以先空着。

除非你明确要做声音克隆,而且有合法授权。

6.3 中间:数字人服务配置

数字人生成通常比普通静态配图更重。

如果本机跑不动,就要走云端工作流。

常见路线是接 RunningHub:

前置图片生成服务:RunningHub 云端
工作流:digital/image.json

口播视频合成服务:RunningHub 云端
工作流:digital/combination.json

RunningHub API Key 要回到系统配置里填。

如果没有 Key,可以去 RunningHub 注册,看当前是否有新用户额度。

这里我不建议你一开始就充值很多。

先用免费额度或小额测试,跑一条样片,看效果是否满足你的账号需求。

6.4 右边:生成模式

一般会有两类模式:

带货模式
自定义模式

带货模式适合你输入商品名,让 AI 帮你写推广词。

自定义模式适合你自己粘贴口播稿。

第一次建议用自定义模式。

因为你能控制文本,方便判断数字人效果。

可以先用这段测试:

大家好,我是你的 AI 工作流测试员。今天这条视频不是为了炫技,而是验证一件事:一台普通电脑,加上一套开源工具,能不能跑出完整的数字人口播链路。我们先看嘴型、语速和画面稳定性,再决定是否继续优化。

点生成。

等进度条跑完。

如果最后提示正在拼接视频,并生成了成片,说明数字人链路也跑通了。

7. 真实效果预期:能用,但别神化

我建议你用三个标准看第一条数字人视频:

能不能看?
能不能发?
能不能规模化优化?

不要用“电影级数字人”这个标准。

本地开源链路的常见问题包括:

但它的价值也很明显:

换句话说,它不一定适合你直接做品牌广告大片。

但非常适合做:

尤其对独立创作者来说,最贵的不是生成一条视频,而是不断试错。

如果你能把一次试错成本降下来,就已经很值。

8. 用 4SAPI 做写稿层:这一步很适合商业化

很多人搭数字人,只盯着画面。

但真正决定内容能不能转化的,经常是脚本。

一个数字人 Agent 要商业化,写稿层至少要解决这些问题:

这就是 4SAPI 适合放进来的地方。

你可以把 Pixelle-Video 看成内容生产前台,把 4SAPI 看成模型调用后台。

推荐架构是:

Pixelle-Video
  -> 4SAPI/OpenAI-compatible Base URL
  -> DeepSeek / GPT / Claude / GLM / Qwen 等文本模型
  -> ComfyUI / RunningHub / 其他媒体工作流

这样有几个好处。

第一,模型统一。

同一套数字人流程里,你可以按任务切模型:

环节 建议模型档位
标题备选 低成本模型
分镜草稿 低成本模型
产品卖点提炼 中高质量模型
口播稿精修 强中文写作模型
长资料总结 长上下文模型

第二,Key 不乱。

不要把一堆模型平台 Key 填得到处都是。

一个团队里,如果每个人电脑上都有不同 Key,很快就会出现:

用 4SAPI 统一入口,至少能把这件事收敛到一套令牌和日志里。

第三,成本可复盘。

数字人视频不一定一次成片。

你可能会一条选题生成 10 版脚本、6 版标题、3 版分镜。

如果没有日志,你只会感觉“AI 又花钱了”。

如果有统一日志,你可以看清楚:

哪个模型最贵
哪个步骤调用最多
哪类选题最耗 token
哪批脚本最后转化更好

这才是内容工厂真正需要的数据。

9. 排错清单:先看这几类问题

9.1 写稿不出来

优先检查:

如果你用 4SAPI,常见地址是:

https://4sapi.com/v1

注意不要重复写路径。

错误示例:

https://4sapi.com/v1/v1/chat/completions
https://4sapi.com/v1/chat/completions/chat/completions

有的工具要填 base_url,有的工具要填完整 chat/completions 地址。

看页面字段名,不要凭感觉填。

9.2 ComfyUI 连接失败

检查:

浏览器能不能打开 http://127.0.0.1:8188
ComfyUI 是否还在运行
端口是否被占用
工作流需要的模型是否下载
Pixelle-Video 配置里是否选了本地 ComfyUI

很多出图失败不是软件坏了,而是工作流引用的模型文件没放到对应目录。

9.3 跳出来要某个 API Key

多半是你选了云端方案。

比如:

如果你想本机免费跑,回到工作流选择,改成 selfhost 或本地方案。

如果你确实要云端效果,就去对应平台填 Key,并设置预算。

9.4 数字人视频不自然

先调整这些:

不要一上来生成 3 分钟。

数字人越长,瑕疵越明显。

9.5 生成很慢

正常。

慢的地方通常在:

如果你只是在测试选题,可以先用静态图模板。

等脚本验证通过,再上动态视频和数字人。

10. 我的建议:把它当工作流,不要当神机

这类数字人 Agent 最容易让人上头。

因为第一次看到一张照片开口说话,会很震撼。

但真正做内容,还是要回到三个问题:

你的选题有没有需求?
你的脚本有没有信息密度?
你的画面有没有信任感?

工具只能降低生产成本。

它不能替你理解用户。

所以我建议按这个顺序迭代:

第一天:跑通 Pixelle-Video + ComfyUI
第二天:接入 4SAPI 写稿模型
第三天:跑 10 条普通短视频脚本
第四天:挑 3 条做数字人口播
第五天:看完播率、评论和转化,再决定是否升级云端视频模型

千万不要反过来。

很多人第一天就买最贵的云端工作流,最后发现自己连什么选题能发都没想清楚。

这才是最贵的。

11. 适合谁,不适合谁

适合:

不适合:

本地数字人 Agent 是工具,不是印钞机。

但如果你能把它和选题、脚本、投放、复盘结合起来,它确实能把内容生产效率拉高一大截。

12. 总结

这篇的核心就一句话:

先用 Pixelle-Video 和 ComfyUI 在本地跑通数字人 Agent,再用 4SAPI 把写稿模型、Key、成本和日志统一起来。

Pixelle-Video 负责把“写稿、分镜、配图、配音、合成”做成可操作流程。

ComfyUI 负责本地图片和视频工作流。

Edge-TTS 负责低成本配音。

RunningHub、Seedance、可灵这些付费能力,负责后续提高画质和稳定性。

4SAPI 则适合做模型网关:

你不用一开始就搭一个完美平台。

先跑出第一条片。

再看哪一步最痛。

然后再升级哪一步。

这才是普通人搭数字人 Agent 最稳的路线。

项目地址:

发布前建议再复核一次 Pixelle-Video README、4SAPI 后台模型名和当前价格,因为开源项目安装方式、模型分组、API 地址说明都有可能更新。