本地数字人Agent | 4SAPI写稿省钱

title: " 本地数字人Agent | 4SAPI写稿省钱" category: 人工智能 tags:

大模型API中转站
数字人
Agent
Pixelle-Video
ComfyUI
4SAPI description: "手把手讲清楚如何在自己电脑上部署 Pixelle-Video 和 ComfyUI，跑通数字人口播、AI写稿、配图、配音和合成流程，并说明如何用 4SAPI 统一管理写稿模型、成本和日志。"

最近抖音上有一类数字人 Agent 很火。

给它一个主题，它能自动写口播稿、配图、配音、合成视频，最后给你一条可以直接发的竖屏短视频。

看起来很玄。

但拆开以后你会发现，它不是魔法。

它本质上是几类能力串在一起：

选题/脚本生成
  -> 分镜规划
  -> 图片生成
  -> 配音
  -> 数字人驱动
  -> 视频合成

这条链路里，真正贵的不是某一个按钮，而是把模型、工作流、素材、成本和排错都串起来。

如果你是独立创作者、小团队运营、开发者，完全可以先在自己电脑上把这套流程跑通。

这篇就用开源项目 Pixelle-Video 做一遍本地部署。

它底层接 ComfyUI，可以做 AI 短视频、数字人口播、图生视频、动作迁移等工作流。截至 2026 年 6 月 23 日我复核时，GitHub 上已经是两万多 star 的项目，说明不是一个无人维护的小玩具。

我会重点讲三件事：

怎么把 Pixelle-Video 和 ComfyUI 在自己电脑上跑起来。
怎么配置写稿模型、出图、配音和数字人口播。
为什么建议把写稿模型这一层接到 4SAPI，统一 Key、模型、成本和日志。

先说结论。

如果你只是想低成本试水：

Pixelle-Video + ComfyUI + Edge-TTS + 4SAPI/DeepSeek 类低成本模型

就够你把第一条数字人内容跑出来了。

如果你要商业化批量生产，再考虑 RunningHub、Seedance、可灵、OpenAI 图像模型这些付费能力。

别一上来就买一堆课、办一堆会员、租一堆 GPU。

先把链路跑通。

1. 为什么我建议先本地搭一套？

现在市面上的数字人服务，卖点一般是：

自动写脚本
自动生成分镜
自动配图
自动配音
自动生成口播视频
支持带货模板
支持批量生产

听起来像一整套产品。

但从技术视角看，它经常是几块开源能力或第三方 API 拼起来：

大语言模型负责写稿
ComfyUI 负责图片/视频工作流
TTS 负责配音
数字人模型负责嘴型和表情
前端页面负责把参数做成按钮

这就是为什么你会看到一些数字人系统价格很高，但效果差异并没有想象中那么大。

贵的地方不一定是模型本身，而是信息差、交付包装、模板和售后。

对独立科技博主来说，我更关心两个问题：

第一，这东西能不能自己跑？
第二，跑起来以后成本和质量能不能被我控制？

Pixelle-Video 的价值就在这里。

它不是让你立刻拥有一个完美的商业数字人平台。

它更像一个可拆解、可修改、可复盘的数字人 Agent 样板间。

你跑通以后，至少能看懂市面上数字人产品背后的链路：

哪一步在写稿
哪一步在出图
哪一步在调用云端
哪一步最耗钱
哪一步最容易失败
哪些地方适合换成自己的模型网关

这比盲买一个黑盒服务更重要。

2. 准备清单：先别把问题搞复杂

先准备这些东西：

项目	用途	建议
Pixelle-Video	数字人 Agent 主程序	开源项目，负责页面和流程编排
ComfyUI	图片/视频工作流引擎	本地默认地址通常是 `127.0.0.1:8188`
AI IDE	安装和排错	Cursor、Claude Code、Codex、Trae 都行
4SAPI Key	写稿模型统一入口	用来接 DeepSeek、GPT、Claude、GLM 等模型
DeepSeek 或其他文本模型	生成脚本/分镜	可以通过 4SAPI 或官方 Key 接入
Windows 或 Mac 电脑	本地运行	16G 内存以上更稳，有 NVIDIA 显卡更适合跑视频

这里我建议把“写稿模型”这层走 4SAPI。

原因很简单。

数字人 Agent 一条视频可能会多次调用大语言模型：

生成主题大纲
写口播稿
拆分镜
生成画面提示词
生成标题
改写成带货话术
批量生成多版本脚本

如果你后面想比较 DeepSeek、GPT、Claude、GLM、Qwen 的脚本质量，不要每换一个模型就重新改一遍软件配置。

通过 4SAPI 这类大模型 API 中转站，比较理想的状态是：

Base URL: https://4sapi.com/v1
API Key: 你的 4SAPI 令牌
Model: 从 4SAPI 模型广场复制的模型名

模型换了，入口不变。

成本、日志、Key 也能集中管理。

这是独立创作者后面做批量内容时非常实用的一点。

这里强调一下，4SAPI 在这篇里的角色是合法合规的模型 API 网关，用来统一模型调用、成本和日志，不是用来绕过平台规则或处理未授权内容。

3. 安装路线：能用整合包就先用整合包

Pixelle-Video 官方 README 里提供了 Windows 整合包路线，也提供了源码部署路线。

如果你是第一次装，我建议优先走整合包。

原因不是源码部署多难，而是数字人链路里依赖太多：

Python
Node 或前端依赖
ComfyUI
模型文件
工作流 JSON
TTS
FFmpeg
浏览器访问端口

第一次就全部手搓，排错成本会很高。

3.1 让 AI IDE 帮你装

打开 Codex、Cursor、Claude Code 或 Trae，把下面这段发给它：

请帮我在当前电脑安装并启动 Pixelle-Video 和 ComfyUI。

要求：
1. 优先参考官方 GitHub README。
2. 如果有 Windows 整合包，优先用整合包路线。
3. 如果走源码部署，请一步一步给出可复制命令。
4. 不要把 API Key 写进代码。
5. 安装完成后告诉我两个浏览器地址：
   - Pixelle-Video 页面地址
   - ComfyUI 页面地址
6. 如果命令报错，我会把报错贴给你，你继续排查。

你也可以直接让它拉项目：

请帮我安装 https://github.com/AIDC-AI/Pixelle-Video ，并启动它依赖的 ComfyUI。请先读取 README，再给我适合 Windows/Mac 的命令。

这里有个小建议：别让 AI IDE 一口气跑太多命令。

让它一步一步来。

装依赖、启动服务、打开浏览器，分开验证。

这样出错时你知道是哪一步出的问题。

3.2 怎么判断装好了？

正常情况下你要看到两个页面。

第一个是 Pixelle-Video 页面。

官方说明里本地页面常见地址类似：

http://localhost:8501

第二个是 ComfyUI 页面。

默认常见地址是：

http://127.0.0.1:8188

两个页面都能打开，才算基础环境跑起来。

如果 Pixelle-Video 能打开，但 ComfyUI 打不开，后面出图大概率会失败。

如果 ComfyUI 能打开，但 Pixelle-Video 打不开，多半是主程序没启动、端口被占用，或者 Python 依赖没装完整。

4. 系统配置：先把写稿模型接稳

进入 Pixelle-Video 后，先找系统配置。

这一页看起来会有很多输入框，但第一次不用全部填。

你重点看三块：

大语言模型
ComfyUI 配置
API 媒体模型

第一次跑通，配置越少越好。

4.1 大语言模型：推荐用 4SAPI 做统一入口

写稿模型负责脚本、分镜和提示词。

如果你只填一个 DeepSeek 官方 Key，也能用。

但如果你后面想换模型、看日志、控制成本，我更建议走 4SAPI。

通用思路是：

Provider/类型：OpenAI Compatible 或 Custom
Base URL：https://4sapi.com/v1
API Key：你的 4SAPI Key
Model：从 4SAPI 模型广场复制完整模型名

如果 Pixelle-Video 页面里有“快速选择 DeepSeek”，你也可以先选 DeepSeek，把它跑通。

但我更建议你理解配置本质：

软件不是只能接 DeepSeek。
只要它支持 OpenAI 兼容接口，就可以接 4SAPI 这类统一网关。

这样你后面可以测试：

便宜模型：批量生成短脚本
强模型：优化高价值带货口播
中文模型：改写更自然的中文口吻
长上下文模型：处理长产品资料

我一般会把数字人 Agent 的写稿层拆成两个档：

任务	模型选择
批量草稿、分镜、标题备选	低成本模型
最终口播稿、复杂产品卖点提炼	更强模型

4SAPI 的好处是，你可以把这些模型放在同一个入口里，用不同 model 名切换，而不是在多个平台之间来回复制 Key。

4.2 ComfyUI：本地地址先填死

ComfyUI 配置建议先选本地。

地址填：

http://127.0.0.1:8188

然后点测试连接。

如果测试失败，先别急着改别的 API。

排查顺序：

ComfyUI 是否启动
端口是否是 8188
浏览器能不能打开 127.0.0.1:8188
防火墙是否拦截
Pixelle-Video 和 ComfyUI 是否在同一台机器

本机方案下，ComfyUI API Key 通常可以空着。

RunningHub 那一截先不用填，除非你准备走云端工作流。

4.3 API 媒体模型：第一轮可以全空

Pixelle-Video 支持接一些云端图片、视频和媒体模型。

这类能力通常效果更稳，但会花钱。

第一轮建议全空。

先用：

本地 ComfyUI
Edge-TTS
低成本文本模型

把最小链路跑通。

后面你真的要提高画质，再回来接：

RunningHub
OpenAI 图像模型
Seedance
可灵
DashScope

这叫渐进式升级。

不要第一天就把所有钥匙都填进去。

5. 快速创作：先跑一条普通短视频

配置保存后，先别急着上数字人。

先跑一条普通 AI 短视频，验证整条流水线。

一般在“快速创作”里，界面会分成三列。

5.1 左边：输入主题

选择 AI 生成内容。

主题可以写简单一点：

为什么普通人也应该搭建自己的本地 AI 工作流

分镜数填 3。

第一次不要填 8、10、20。

分镜越多，失败点越多。

背景音乐先选无。

这不是为了省事，而是为了减少变量。

5.2 中间：配音和画面

配音先选带 Edge 字样的方案。

Edge-TTS 的好处是简单、免费、开箱即用。

你可以先预览一下声音，不满意再换。

画面模板先选竖屏 default。

图像方案这里要看电脑：

电脑情况	建议
Windows + NVIDIA 显卡	可以试 selfhost 开头的 ComfyUI 工作流
普通轻薄本	先用更轻的工作流，别一上来跑大模型
Mac	本地跑部分图像/视频工作流会受限，可以考虑云端 API

如果你走 4SAPI 写稿，本地 ComfyUI 出图，Edge-TTS 配音，这条链路的文本成本会比较低。

这也是我比较推荐的入门组合。

5.3 右边：生成视频

点生成视频。

然后等它跑完：

写稿
  -> 分镜
  -> 配图
  -> 配音
  -> 合成

第一次慢很正常。

模型加载、依赖初始化、工作流启动都会耗时间。

生成完以后，去 output 目录找成片。

如果你看到一条能播放的竖屏视频，恭喜，主链路已经通了。

先别纠结画面是否完美。

第一阶段的目标是：

能不能从一句主题，自动跑出一条视频？

不是：

能不能立刻打败专业剪辑师？

这两个目标差很多。

6. 数字人口播：从一张照片到会说话的人

快速创作能跑通后，再切到数字人口播。

这一块才是大家最感兴趣的地方。

但我要先提醒一句：

数字人合成涉及肖像权、声音权和内容合规。

请只使用你自己有权使用的人像和声音，不要拿别人的照片、明星脸、员工照片去做未经授权的口播。

技术能做到，不代表你该这么做。

6.1 左边：上传人物形象

上传一张清晰正脸照片。

建议满足：

正脸
光线清楚
遮挡少
分辨率不要太低
表情自然

上传后下面会出现预览图。

能看到脸，说明素材加载成功。

6.2 配音：先选本地合成

合成方式如果有多个选项，第一次建议选本地合成。

本地合成一般对应 Edge-TTS，简单稳定。

如果你选了 ComfyUI 合成，可能还要额外配置配音工作流。

这对新手不友好。

参考音频可以先空着。

除非你明确要做声音克隆，而且有合法授权。

6.3 中间：数字人服务配置

数字人生成通常比普通静态配图更重。

如果本机跑不动，就要走云端工作流。

常见路线是接 RunningHub：

前置图片生成服务：RunningHub 云端
工作流：digital/image.json

口播视频合成服务：RunningHub 云端
工作流：digital/combination.json

RunningHub API Key 要回到系统配置里填。

如果没有 Key，可以去 RunningHub 注册，看当前是否有新用户额度。

这里我不建议你一开始就充值很多。

先用免费额度或小额测试，跑一条样片，看效果是否满足你的账号需求。

6.4 右边：生成模式

一般会有两类模式：

带货模式
自定义模式

带货模式适合你输入商品名，让 AI 帮你写推广词。

自定义模式适合你自己粘贴口播稿。

第一次建议用自定义模式。

因为你能控制文本，方便判断数字人效果。

可以先用这段测试：

大家好，我是你的 AI 工作流测试员。今天这条视频不是为了炫技，而是验证一件事：一台普通电脑，加上一套开源工具，能不能跑出完整的数字人口播链路。我们先看嘴型、语速和画面稳定性，再决定是否继续优化。

点生成。

等进度条跑完。

如果最后提示正在拼接视频，并生成了成片，说明数字人链路也跑通了。

7. 真实效果预期：能用，但别神化

我建议你用三个标准看第一条数字人视频：

能不能看？
能不能发？
能不能规模化优化？

不要用“电影级数字人”这个标准。

本地开源链路的常见问题包括：

嘴型偶尔漂
头部动作偏机械
眼神不够自然
图片构图偶尔歪
复杂动作容易崩
长文本更容易出错
视频工作流对显卡要求高

但它的价值也很明显：

成本低
可拆解
可魔改
可批量试选题
可快速验证口播脚本
不被单一平台模板锁死

换句话说，它不一定适合你直接做品牌广告大片。

但非常适合做：

选题测试
口播脚本验证
私域内容更新
产品教程草稿
内部培训视频
小红书/抖音矩阵号初版素材

尤其对独立创作者来说，最贵的不是生成一条视频，而是不断试错。

如果你能把一次试错成本降下来，就已经很值。

8. 用 4SAPI 做写稿层：这一步很适合商业化

很多人搭数字人，只盯着画面。

但真正决定内容能不能转化的，经常是脚本。

一个数字人 Agent 要商业化，写稿层至少要解决这些问题：

不同产品的卖点提炼
不同人群的话术改写
开头 3 秒钩子
评论区问题反向生成脚本
多版本 A/B 测试
敏感词和夸大宣传控制
成本统计
团队协作

这就是 4SAPI 适合放进来的地方。

你可以把 Pixelle-Video 看成内容生产前台，把 4SAPI 看成模型调用后台。

推荐架构是：

Pixelle-Video
  -> 4SAPI/OpenAI-compatible Base URL
  -> DeepSeek / GPT / Claude / GLM / Qwen 等文本模型
  -> ComfyUI / RunningHub / 其他媒体工作流

这样有几个好处。

第一，模型统一。

同一套数字人流程里，你可以按任务切模型：

环节	建议模型档位
标题备选	低成本模型
分镜草稿	低成本模型
产品卖点提炼	中高质量模型
口播稿精修	强中文写作模型
长资料总结	长上下文模型

第二，Key 不乱。

不要把一堆模型平台 Key 填得到处都是。

一个团队里，如果每个人电脑上都有不同 Key，很快就会出现：

不知道谁在花钱
不知道哪个模型效果好
不知道失败是 Key 问题还是模型问题
离职或换电脑时配置散落

用 4SAPI 统一入口，至少能把这件事收敛到一套令牌和日志里。

第三，成本可复盘。

数字人视频不一定一次成片。

你可能会一条选题生成 10 版脚本、6 版标题、3 版分镜。

如果没有日志，你只会感觉“AI 又花钱了”。

如果有统一日志，你可以看清楚：

哪个模型最贵
哪个步骤调用最多
哪类选题最耗 token
哪批脚本最后转化更好

这才是内容工厂真正需要的数据。

9. 排错清单：先看这几类问题

9.1 写稿不出来

优先检查：

API Key 是否填对
Base URL 是否填对
模型名是否完整复制
账户是否有余额
是否选错了 Provider 类型

如果你用 4SAPI，常见地址是：

https://4sapi.com/v1

注意不要重复写路径。

错误示例：

https://4sapi.com/v1/v1/chat/completions
https://4sapi.com/v1/chat/completions/chat/completions

有的工具要填 base_url，有的工具要填完整 chat/completions 地址。

看页面字段名，不要凭感觉填。

9.2 ComfyUI 连接失败

检查：

浏览器能不能打开 http://127.0.0.1:8188
ComfyUI 是否还在运行
端口是否被占用
工作流需要的模型是否下载
Pixelle-Video 配置里是否选了本地 ComfyUI

很多出图失败不是软件坏了，而是工作流引用的模型文件没放到对应目录。

9.3 跳出来要某个 API Key

多半是你选了云端方案。

比如：

OpenAI 图像模型
Seedance
可灵
RunningHub
DashScope

如果你想本机免费跑，回到工作流选择，改成 selfhost 或本地方案。

如果你确实要云端效果，就去对应平台填 Key，并设置预算。

9.4 数字人视频不自然

先调整这些：

换一张更清晰的正脸照
缩短文案
降低语速
换一个声音
减少夸张表情词
先用 10 到 20 秒短文案测试

不要一上来生成 3 分钟。

数字人越长，瑕疵越明显。

9.5 生成很慢

正常。

慢的地方通常在：

本地模型首次加载
ComfyUI 出图
视频工作流
云端排队
最后合成

如果你只是在测试选题，可以先用静态图模板。

等脚本验证通过，再上动态视频和数字人。

10. 我的建议：把它当工作流，不要当神机

这类数字人 Agent 最容易让人上头。

因为第一次看到一张照片开口说话，会很震撼。

但真正做内容，还是要回到三个问题：

你的选题有没有需求？
你的脚本有没有信息密度？
你的画面有没有信任感？

工具只能降低生产成本。

它不能替你理解用户。

所以我建议按这个顺序迭代：

第一天：跑通 Pixelle-Video + ComfyUI
第二天：接入 4SAPI 写稿模型
第三天：跑 10 条普通短视频脚本
第四天：挑 3 条做数字人口播
第五天：看完播率、评论和转化，再决定是否升级云端视频模型

千万不要反过来。

很多人第一天就买最贵的云端工作流，最后发现自己连什么选题能发都没想清楚。

这才是最贵的。

11. 适合谁，不适合谁

适合：

想做短视频但不想天天剪辑的独立创作者
想验证数字人带货流程的小团队
想研究 Agent 工作流的开发者
想搭建内部培训视频流水线的公司
想把写稿模型、成本和日志统一起来的内容团队

不适合：

完全不愿意排错的人
追求一次生成电影级效果的人
没有人像授权还想做真人复刻的人
不愿意检查内容合规的人
只想买一个按钮然后立刻自动赚钱的人

本地数字人 Agent 是工具，不是印钞机。

但如果你能把它和选题、脚本、投放、复盘结合起来，它确实能把内容生产效率拉高一大截。

12. 总结

这篇的核心就一句话：

先用 Pixelle-Video 和 ComfyUI 在本地跑通数字人 Agent，再用 4SAPI 把写稿模型、Key、成本和日志统一起来。

Pixelle-Video 负责把“写稿、分镜、配图、配音、合成”做成可操作流程。

ComfyUI 负责本地图片和视频工作流。

Edge-TTS 负责低成本配音。

RunningHub、Seedance、可灵这些付费能力，负责后续提高画质和稳定性。

4SAPI 则适合做模型网关：

统一 Base URL
统一 API Key
统一模型选择
统一调用日志
统一成本复盘

你不用一开始就搭一个完美平台。

先跑出第一条片。

再看哪一步最痛。

然后再升级哪一步。

这才是普通人搭数字人 Agent 最稳的路线。

项目地址：

Pixelle-Video：https://github.com/AIDC-AI/Pixelle-Video
4SAPI 官网：https://4sapi.com/
4SAPI 接入文档：https://4sapi.apifox.cn/

发布前建议再复核一次 Pixelle-Video README、4SAPI 后台模型名和当前价格，因为开源项目安装方式、模型分组、API 地址说明都有可能更新。