Image2资产前置 | AI长视频先别急着生成

title: " Image2资产前置 | AI长视频先别急着生成" category: 人工智能 tags:

大模型API中转站
Image2
Sora2
AI视频
品牌广告
4SAPI description: "以品牌口红广告为例，先讲用 4SAPI 的 gpt-image-2 做人物、场景、产品和音色资产，再拆出可生成的分镜表，为下一篇用 4SAPI Sora2 生成长视频广告打基础。"

很多人开始用 AI 做长视频，基本都会卡在同一个地方：

单次视频生成时间太短。

你想做一条完整广告。

结果模型一次只给你几秒到十几秒。

想做 60 秒、90 秒、120 秒，只能拼。

一拼就出问题：

人脸漂移
产品变形
动作跳帧
前后光线不一致
场景对不上
口型和声音不贴
品牌 logo 到最后变成乱码

很多人以为换工具就能解决。

从一个视频模型换到另一个视频模型。

结果还是一样。

因为问题不在某一个模型。

问题在流程。

AI 长视频不是一次生成出来的。

它更像拍广告：

先定资产。
再写脚本。
再拆镜头。
再逐段生成。
再剪辑拼接。
最后做音频和调色。

所以这次拆成上下两篇。

第84期只解决前半段：

不要急着生成视频。
先把 Image2 资产和分镜表做稳。

第85期再继续讲：

4SAPI Sora2 接入。
分镜生视频。
尾帧衔接。
剪辑拼接。
音频处理。
成本治理。

工具组合是：

Image2：用 4SAPI 的 gpt-image-2 做角色、场景、产品资产。
Sora2：下一篇用 4SAPI 的 Sora2 做图生视频和分镜片段。
剪辑软件：剪映、Premiere、DaVinci Resolve 都可以。
音频工具：ElevenLabs、MiniMax、TTS 或真人配音。

注意，4SAPI 文档里图片模型是 gpt-image-2，视频任务示例里模型字段写的是 sora-2，而用户分组里能看到 sora2 分组。

这两个名字不要混：

sora2：常见于分组或口头称呼。
sora-2：视频任务里常见的模型字段。

具体以你调用时 4SAPI Apifox 文档和后台模型列表为准。

1. 先说结论：长视频不是拉长，是拆短

AI 长视频最反直觉的一点是：

不要试图让模型一次生成很长。

越长越容易坏。

人脸会飘。

手会变形。

产品会换包装。

镜头会自己乱转。

更稳的思路是：

把 100 秒广告拆成 10 到 20 个短镜头。
每个镜头只承担一个动作。
每段只做 4 到 12 秒。
最后靠剪辑和音频把它们连起来。

这不是妥协。

这就是现在 AI 视频生产的基本工作方式。

真正决定成片质量的不是某一段视频多长。

而是：

资产是否统一
分镜是否清楚
每段动作是否简单
镜头之间是否能接
音频是否完整
剪辑是否有节奏

如果你前面资产没做，后面靠提示词补救，基本救不回来。

2. 本文案例：一条 115 秒品牌口红广告

我们用一个口红广告作为例子。

广告主题：

涂上它，然后开口。

核心叙事不是“这支口红多好看”。

而是：

不同年龄的女性，在关键时刻开口表达自己。

角色分成五段：

角色	场景	情绪
20 岁女生	宿舍直播前	紧张但想表达
30 岁职场女性	写字楼洗手间	调整状态，准备上场
35 岁会议室女性	会议室	克制、坚定
45 岁女性	家居梳妆台	温柔但有力量
60 岁女性	走廊或窗边	平静、自信

产品是口红。

我们需要它在不同镜头里保持一致：

外壳颜色不乱
色号不乱
口红管比例不乱
logo 不乱
上嘴颜色不乱

整条片子目标是 100 秒以上。

但不追求一镜到底。

我们会拆成 15 个镜头，每个镜头 4 到 10 秒。

3. 工具链总览

这一套流程建议这样分工：

环节	推荐工具	作用
角色资产	4SAPI gpt-image-2	生成人物三视图、半身、表情、特写
场景资产	4SAPI gpt-image-2	生成空景、景别图、光线参考
产品资产	4SAPI gpt-image-2 / 图片编辑	生成正面、侧面、45 度、使用状态
视频片段	4SAPI Sora2	根据参考图和提示词生成短视频
状态查询	4SAPI 视频任务状态接口	查询异步视频任务进度
剪辑拼接	剪映 / PR / DaVinci	拼接、转场、调色、字幕
配音	ElevenLabs / MiniMax / TTS / 真人	生成旁白和对白
成本治理	4SAPI 日志和统计	看 token、任务、模型消耗和失败原因

注意，这里不是说必须全程只用一个工具。

但主链路要尽量稳定：

图片资产用同一套模型。
视频片段用同一套模型。
剪辑和音频在后期统一处理。

如果你每段都换模型，风格一致性会更难控。

4. 第一步：资产前置

所有一致性问题，根源都在资产前置没做好。

很多人做 AI 视频，一上来就写：

一个漂亮女性在镜头前涂口红，电影感，高清，广告片。

模型当然能生成。

但下一段就换脸。

再下一段口红换包装。

再下一段场景光线变了。

所以第一步不要生成视频。

先用 Image2 做资产。

资产至少分四类：

人物
场景
产品
音色

5. 人物设定：三视图、半身、表情、细节

人物资产要尽量具体。

至少准备：

资产	用途
全身三视图	锁定人物比例、发型、服装
正面半身图	给中近景和对话镜头用
脸部近景	给表情和口型参考
表情组	自然、微笑、紧张、坚定
服装细节	衣领、袖口、配饰、耳环、项链
动作参考	拿口红、涂口红、看镜子、转身

人物提示词可以这样写：

生成一张广告片角色设定图。
角色：30 岁亚洲职场女性，黑色短发，干净自然妆容，穿米白色西装外套和浅色衬衫。
画面：全身三视图，正面、侧面、背面并排，白色背景，柔和棚拍光。
要求：同一人物，同一发型，同一服装，同一鞋子，同一配饰。不要夸张姿势，不要杂乱背景。
风格：真实广告人物设定图，清晰、干净、可用于后续视频参考。

半身图提示词：

基于同一位 30 岁亚洲职场女性，生成正面半身设定图。
镜头到胸口，人物看向镜头，表情克制自信。
保持同一发型、同一服装、同一妆容、同一配饰。
背景纯白，柔和棚拍光，不要加入额外道具。

表情组提示词：

同一位女性角色，生成四宫格表情设定图：
1. 自然闭嘴
2. 轻微微笑
3. 深呼吸前的紧张
4. 准备开口时的坚定
要求脸型、发型、妆容、服装完全一致。

这里用 4SAPI 的 gpt-image-2 做文本生图就够。

如果某张脸好，但衣服不对，可以走 gpt-image-2 图像编辑接口，让模型只改衣服或配饰。

6. 本案例的人物资产怎么做

我们准备五个角色：

20 岁宿舍女生
30 岁职场女性
35 岁会议室女性
45 岁梳妆台女性
60 岁窗边女性

每个角色都要出：

全身三视图
正面半身图
嘴唇特写
涂口红动作图
3 到 4 个表情
服装和配饰细节

尤其是嘴唇特写。

口红广告最容易翻车的不是大场景。

而是：

嘴唇、牙齿、手指、口红膏体。

这些细节必须单独出参考图。

否则 Sora2 生成视频时，手指容易多一根，口红容易变成笔，嘴唇边缘会糊。

7. 场景设定：先出无人空景

场景不要直接带人物生成。

先出无人空景。

原因很简单：

场景负责光线、色调和空间结构。
人物负责身份、动作和情绪。
两者先分开，后面更好控。

每个场景至少出三张：

景别	用途
全景	交代空间
中景	人物和环境关系
近景	物品、镜子、桌面、门缝等细节

场景提示词示例：

生成一个写字楼洗手间空景，用于高端口红广告。
空间：现代写字楼洗手间，干净镜面，浅灰石材台面，柔和顶光，轻微冷色调。
景别：中景，镜子和洗手台占画面主体，画面中不要有人。
气氛：清晨上班前，安静、克制、真实。
要求：不要出现文字，不要品牌 logo，不要杂乱物品，不要夸张反光。

如果你要让同一个场景在多个镜头里出现，建议再做一段 360 度环视参考。

方法是：

先用 Image2 出空景图。
再用 Sora2 生成 4 秒轻微环视视频。
后面生人物镜头时，把空景图或环视帧作为参考。

这不能保证 100% 一致。

但比每段重新描述场景稳定很多。

8. 本案例的场景资产

这条广告准备四套主场景：

宿舍
写字楼洗手间
会议室
家居梳妆台
窗边走廊

每套场景出：

无人全景
无人中景
无人近景
光线参考图
道具细节图

宿舍要偏年轻：

桌上有台灯、笔记本电脑、简单床铺，但不要乱。

写字楼洗手间要偏克制：

镜面、冷光、干净台面。

会议室要偏压迫：

长桌、玻璃墙、投影屏、冷色光。

梳妆台要偏温暖：

木质台面、暖色台灯、镜子、口红摆放。

窗边走廊要偏升华：

逆光、柔光、安静、人物轮廓清晰。

9. 产品设定：口红至少五类图

产品资产比人物更重要。

广告里产品一变形，观众马上出戏。

口红至少准备：

产品图	用途
正面图	包装完整，给结尾和产品展示
侧面图	看清色柱、外壳材质
45 度斜侧图	最常用，可同时看到正面和侧面
旋开状态	展示膏体颜色
使用状态	手拿、靠近嘴唇、涂抹
logo 特写	收尾品牌名和包装细节

如果是客户真实品牌，要注意版权和商标授权。

如果只是练习，建议用虚构品牌。

不要随手生成真实品牌 logo 并商用。

对于真实品牌项目，应该由客户提供：

官方产品图
logo 矢量文件
品牌字体
色号信息
包装规范
使用授权

Image2 可以帮你做概念图和参考图，但最终商业投放要人工核对品牌一致性。

10. 产品提示词示例

正面产品图：

生成一支高端口红产品摄影图。
产品：圆柱形金属口红管，玫瑰金外壳，品牌名位置留白，不生成真实品牌文字。
画面：产品正面竖直站立，白色背景，柔和棚拍光，底部轻微反射。
要求：包装完整、无遮挡、边缘清晰、比例真实、不要手、不要人物、不要杂乱道具。

45 度斜侧图：

同一支玫瑰金口红，45 度斜侧角度，能同时看到正面和侧面。
外壳材质为细腻金属，光线柔和，产品轮廓清晰。
保持和正面图相同设计，不要新增文字，不要改变颜色。

旋开状态：

同一支口红旋开状态，露出砖红色膏体。
膏体边缘干净，切面自然，外壳仍是玫瑰金。
白色背景，高端产品摄影，光线柔和。

使用状态：

一只女性手拿着同一支玫瑰金口红，靠近嘴唇准备涂抹。
画面为特写，重点是口红膏体、手指和嘴唇。
要求手指自然，不要多指，不要变形，不要让口红变成笔。

生成后，把可用图固定编号：

product_front_01.png
product_side_01.png
product_45_01.png
product_open_01.png
product_use_01.png
logo_closeup_01.png

后面所有视频镜头都引用这些文件。

11. 音色设定：不要到最后才想声音

很多人视频都剪完了，才开始配音。

这会出问题。

声音其实要在脚本阶段就定。

音频至少分三类：

旁白
人物对白
环境音

旁白音色和人物对白音色要分开。

不要一个声音包打天下。

本案例旁白设定：

女性声音。
30 到 40 岁感。
低沉、温柔、克制。
非甜美型。
语速中慢。
像高端品牌广告旁白。

先生成 30 秒样本试听。

确认后记录：

工具
音色 ID
语速
情绪参数
采样日期
样本文案

全片统一用同一个音色。

中途不要换。

12. 第二步：脚本规划

资产备好后，再写脚本。

广告脚本先定叙事结构。

跨境电商和品牌广告常见结构是：

痛点
  -> 产品出现
  -> 效果证明
  -> 情绪升华
  -> 行动号召

但口红广告不一定要直白讲功效。

本案例改成：

产品出现
  -> 四个女人的故事
  -> 嘴唇汇聚
  -> 品牌收尾

这样更像品牌片。

不是喊：

买它，因为它不脱妆。

而是讲：

涂上它，然后开口。

情绪比参数更重要。

13. 每个镜头必须标清六件事

每个镜头都要写清楚：

1. 景别
2. 主体行为
3. 运镜方式
4. 情绪氛围
5. 预计时长
6. 是否有人说话

这六件事不写清楚，后面 Sora2 提示词一定会散。

比如不要写：

女生涂口红。

要写：

镜头 03
景别：宿舍中近景
主体行为：20 岁女生坐在桌前，拿起口红，短暂停顿后轻轻涂上
运镜：固定镜头，轻微推近
情绪：紧张、准备开始直播
时长：6 秒
说话：无，只保留呼吸和环境音

这才是可生成的镜头。

14. 镜头时长怎么定

建议按这个标准：

镜头类型	建议时长
产品特写	4 到 5 秒
静态情绪镜头	4 到 6 秒
人物中景动作	5 到 8 秒
复杂动作	6 到 10 秒
交代空间	5 到 8 秒
过渡镜头	2 到 4 秒

不要强行拉长。

能拆就拆。

比如“拿口红、涂口红、抬头开口”可以拆成三段：

手拿起口红。
嘴唇涂抹特写。
人物抬头准备说话。

拆开后，每段质量会高很多。

切镜头比强行延长更自然。

15. 本案例 15 个镜头分镜表

可以先这样拆。

镜头	内容	景别	秒数	生成方式
01	口红在白色背景中缓慢旋转	产品特写	5	纯提示词 + 产品图
02	口红旋开，露出膏体	产品特写	5	产品图生视频
03	20 岁女生宿舍涂口红	中近景	7	参考图 + Sora2
04	女生深呼吸，点直播按钮	中景	6	尾帧衔接
05	30 岁职场女性在洗手间补妆	中近景	7	场景图 + 人物图
06	她看向镜子，眼神变坚定	近景	5	尾帧衔接
07	35 岁女性走进会议室	全景	7	纯提示词 + 场景图
08	她放下口红，准备发言	中景	6	参考图
09	45 岁女性在梳妆台前涂口红	近景	7	参考图
10	她合上口红，微笑看向镜子	中近景	6	尾帧衔接
11	60 岁女性站在逆光走廊	全景	6	场景图 + 人物图
12	她轻轻开口，表情平静	近景	5	参考图
13	四个嘴唇特写快速汇聚	快切特写	8	故事板/分镜模式
14	产品色号排列，品牌氛围镜头	产品展示	7	产品图生视频
15	品牌口号和产品收尾	定帧/轻动效	6	Image2 + 后期

总时长大约 90 到 100 秒。

如果加旁白和慢节奏留白，可以扩到 115 秒。

16. 上篇检查清单

进入 Sora2 生成视频之前，先确认这些资产已经备好：

人物资产：
[ ] 全身三视图
[ ] 正面半身
[ ] 脸部近景
[ ] 表情组
[ ] 服装细节
[ ] 手拿产品动作图

场景资产：
[ ] 无人全景
[ ] 无人中景
[ ] 无人近景
[ ] 光线参考
[ ] 道具细节

产品资产：
[ ] 正面图
[ ] 侧面图
[ ] 45 度图
[ ] 旋开状态
[ ] 使用状态
[ ] logo / 品牌文字后期素材

音频资产：
[ ] 旁白音色样本
[ ] 人物对白音色
[ ] 环境音素材
[ ] 背景音乐

分镜资产：
[ ] 叙事结构已经确定
[ ] 每个镜头写清景别、行为、运镜、情绪、时长、说话情况
[ ] 每个镜头都有参考图或说明为什么不需要参考图
[ ] 复杂动作已经拆短
[ ] 产品、人物、场景的命名统一

17. 上篇总结与下篇预告

这一篇只做一件事：

把长视频生成前的资产和分镜准备好。

如果这一步没做好，后面用再强的视频模型也会乱。

人物会变脸。

产品会变形。

场景会跳。

镜头会接不上。

所以先用 Image2 做好：

人物设定。
场景设定。
产品设定。
音色设定。
分镜表。

下一篇继续讲：

怎么用 4SAPI Sora2 分段生成视频。
怎么用尾帧衔接解决连续性。
怎么剪辑、配音、调色。
怎么记录成本和失败镜头。

做到这里，你还没有真正开始“生成长视频”。

但你已经完成了最重要的前置工作。

资料来源与延伸阅读

4SAPI 文档：图片生成（gpt-image-2） https://4sapi.apifox.cn/447631659e0
4SAPI 文档：图像编辑（gpt-image-2） https://4sapi.apifox.cn/448573555e0
4SAPI 文档：创建视频任务（Sora） https://4sapi.apifox.cn/420227569e0
4SAPI 文档：获取用户分组 https://4sapi.apifox.cn/431006249e0
4SAPI 官网：https://4sapi.com/