title: " Image2资产前置 | AI长视频先别急着生成" category: 人工智能 tags:
- 大模型API中转站
- Image2
- Sora2
- AI视频
- 品牌广告
- 4SAPI description: "以品牌口红广告为例,先讲用 4SAPI 的 gpt-image-2 做人物、场景、产品和音色资产,再拆出可生成的分镜表,为下一篇用 4SAPI Sora2 生成长视频广告打基础。"
很多人开始用 AI 做长视频,基本都会卡在同一个地方:
单次视频生成时间太短。
你想做一条完整广告。
结果模型一次只给你几秒到十几秒。
想做 60 秒、90 秒、120 秒,只能拼。
一拼就出问题:
- 人脸漂移
- 产品变形
- 动作跳帧
- 前后光线不一致
- 场景对不上
- 口型和声音不贴
- 品牌 logo 到最后变成乱码
很多人以为换工具就能解决。
从一个视频模型换到另一个视频模型。
结果还是一样。
因为问题不在某一个模型。
问题在流程。
AI 长视频不是一次生成出来的。
它更像拍广告:
先定资产。
再写脚本。
再拆镜头。
再逐段生成。
再剪辑拼接。
最后做音频和调色。
所以这次拆成上下两篇。
第84期只解决前半段:
不要急着生成视频。
先把 Image2 资产和分镜表做稳。
第85期再继续讲:
4SAPI Sora2 接入。
分镜生视频。
尾帧衔接。
剪辑拼接。
音频处理。
成本治理。
工具组合是:
Image2:用 4SAPI 的 gpt-image-2 做角色、场景、产品资产。
Sora2:下一篇用 4SAPI 的 Sora2 做图生视频和分镜片段。
剪辑软件:剪映、Premiere、DaVinci Resolve 都可以。
音频工具:ElevenLabs、MiniMax、TTS 或真人配音。
注意,4SAPI 文档里图片模型是 gpt-image-2,视频任务示例里模型字段写的是 sora-2,而用户分组里能看到 sora2 分组。
这两个名字不要混:
sora2:常见于分组或口头称呼。
sora-2:视频任务里常见的模型字段。
具体以你调用时 4SAPI Apifox 文档和后台模型列表为准。
1. 先说结论:长视频不是拉长,是拆短
AI 长视频最反直觉的一点是:
不要试图让模型一次生成很长。
越长越容易坏。
人脸会飘。
手会变形。
产品会换包装。
镜头会自己乱转。
更稳的思路是:
把 100 秒广告拆成 10 到 20 个短镜头。
每个镜头只承担一个动作。
每段只做 4 到 12 秒。
最后靠剪辑和音频把它们连起来。
这不是妥协。
这就是现在 AI 视频生产的基本工作方式。
真正决定成片质量的不是某一段视频多长。
而是:
- 资产是否统一
- 分镜是否清楚
- 每段动作是否简单
- 镜头之间是否能接
- 音频是否完整
- 剪辑是否有节奏
如果你前面资产没做,后面靠提示词补救,基本救不回来。
2. 本文案例:一条 115 秒品牌口红广告
我们用一个口红广告作为例子。
广告主题:
涂上它,然后开口。
核心叙事不是“这支口红多好看”。
而是:
不同年龄的女性,在关键时刻开口表达自己。
角色分成五段:
| 角色 | 场景 | 情绪 |
|---|---|---|
| 20 岁女生 | 宿舍直播前 | 紧张但想表达 |
| 30 岁职场女性 | 写字楼洗手间 | 调整状态,准备上场 |
| 35 岁会议室女性 | 会议室 | 克制、坚定 |
| 45 岁女性 | 家居梳妆台 | 温柔但有力量 |
| 60 岁女性 | 走廊或窗边 | 平静、自信 |
产品是口红。
我们需要它在不同镜头里保持一致:
- 外壳颜色不乱
- 色号不乱
- 口红管比例不乱
- logo 不乱
- 上嘴颜色不乱
整条片子目标是 100 秒以上。
但不追求一镜到底。
我们会拆成 15 个镜头,每个镜头 4 到 10 秒。
3. 工具链总览
这一套流程建议这样分工:
| 环节 | 推荐工具 | 作用 |
|---|---|---|
| 角色资产 | 4SAPI gpt-image-2 | 生成人物三视图、半身、表情、特写 |
| 场景资产 | 4SAPI gpt-image-2 | 生成空景、景别图、光线参考 |
| 产品资产 | 4SAPI gpt-image-2 / 图片编辑 | 生成正面、侧面、45 度、使用状态 |
| 视频片段 | 4SAPI Sora2 | 根据参考图和提示词生成短视频 |
| 状态查询 | 4SAPI 视频任务状态接口 | 查询异步视频任务进度 |
| 剪辑拼接 | 剪映 / PR / DaVinci | 拼接、转场、调色、字幕 |
| 配音 | ElevenLabs / MiniMax / TTS / 真人 | 生成旁白和对白 |
| 成本治理 | 4SAPI 日志和统计 | 看 token、任务、模型消耗和失败原因 |
注意,这里不是说必须全程只用一个工具。
但主链路要尽量稳定:
图片资产用同一套模型。
视频片段用同一套模型。
剪辑和音频在后期统一处理。
如果你每段都换模型,风格一致性会更难控。
4. 第一步:资产前置
所有一致性问题,根源都在资产前置没做好。
很多人做 AI 视频,一上来就写:
一个漂亮女性在镜头前涂口红,电影感,高清,广告片。
模型当然能生成。
但下一段就换脸。
再下一段口红换包装。
再下一段场景光线变了。
所以第一步不要生成视频。
先用 Image2 做资产。
资产至少分四类:
人物
场景
产品
音色
5. 人物设定:三视图、半身、表情、细节
人物资产要尽量具体。
至少准备:
| 资产 | 用途 |
|---|---|
| 全身三视图 | 锁定人物比例、发型、服装 |
| 正面半身图 | 给中近景和对话镜头用 |
| 脸部近景 | 给表情和口型参考 |
| 表情组 | 自然、微笑、紧张、坚定 |
| 服装细节 | 衣领、袖口、配饰、耳环、项链 |
| 动作参考 | 拿口红、涂口红、看镜子、转身 |
人物提示词可以这样写:
生成一张广告片角色设定图。
角色:30 岁亚洲职场女性,黑色短发,干净自然妆容,穿米白色西装外套和浅色衬衫。
画面:全身三视图,正面、侧面、背面并排,白色背景,柔和棚拍光。
要求:同一人物,同一发型,同一服装,同一鞋子,同一配饰。不要夸张姿势,不要杂乱背景。
风格:真实广告人物设定图,清晰、干净、可用于后续视频参考。
半身图提示词:
基于同一位 30 岁亚洲职场女性,生成正面半身设定图。
镜头到胸口,人物看向镜头,表情克制自信。
保持同一发型、同一服装、同一妆容、同一配饰。
背景纯白,柔和棚拍光,不要加入额外道具。
表情组提示词:
同一位女性角色,生成四宫格表情设定图:
1. 自然闭嘴
2. 轻微微笑
3. 深呼吸前的紧张
4. 准备开口时的坚定
要求脸型、发型、妆容、服装完全一致。
这里用 4SAPI 的 gpt-image-2 做文本生图就够。
如果某张脸好,但衣服不对,可以走 gpt-image-2 图像编辑接口,让模型只改衣服或配饰。
6. 本案例的人物资产怎么做
我们准备五个角色:
20 岁宿舍女生
30 岁职场女性
35 岁会议室女性
45 岁梳妆台女性
60 岁窗边女性
每个角色都要出:
- 全身三视图
- 正面半身图
- 嘴唇特写
- 涂口红动作图
- 3 到 4 个表情
- 服装和配饰细节
尤其是嘴唇特写。
口红广告最容易翻车的不是大场景。
而是:
嘴唇、牙齿、手指、口红膏体。
这些细节必须单独出参考图。
否则 Sora2 生成视频时,手指容易多一根,口红容易变成笔,嘴唇边缘会糊。
7. 场景设定:先出无人空景
场景不要直接带人物生成。
先出无人空景。
原因很简单:
场景负责光线、色调和空间结构。
人物负责身份、动作和情绪。
两者先分开,后面更好控。
每个场景至少出三张:
| 景别 | 用途 |
|---|---|
| 全景 | 交代空间 |
| 中景 | 人物和环境关系 |
| 近景 | 物品、镜子、桌面、门缝等细节 |
场景提示词示例:
生成一个写字楼洗手间空景,用于高端口红广告。
空间:现代写字楼洗手间,干净镜面,浅灰石材台面,柔和顶光,轻微冷色调。
景别:中景,镜子和洗手台占画面主体,画面中不要有人。
气氛:清晨上班前,安静、克制、真实。
要求:不要出现文字,不要品牌 logo,不要杂乱物品,不要夸张反光。
如果你要让同一个场景在多个镜头里出现,建议再做一段 360 度环视参考。
方法是:
先用 Image2 出空景图。
再用 Sora2 生成 4 秒轻微环视视频。
后面生人物镜头时,把空景图或环视帧作为参考。
这不能保证 100% 一致。
但比每段重新描述场景稳定很多。
8. 本案例的场景资产
这条广告准备四套主场景:
宿舍
写字楼洗手间
会议室
家居梳妆台
窗边走廊
每套场景出:
- 无人全景
- 无人中景
- 无人近景
- 光线参考图
- 道具细节图
宿舍要偏年轻:
桌上有台灯、笔记本电脑、简单床铺,但不要乱。
写字楼洗手间要偏克制:
镜面、冷光、干净台面。
会议室要偏压迫:
长桌、玻璃墙、投影屏、冷色光。
梳妆台要偏温暖:
木质台面、暖色台灯、镜子、口红摆放。
窗边走廊要偏升华:
逆光、柔光、安静、人物轮廓清晰。
9. 产品设定:口红至少五类图
产品资产比人物更重要。
广告里产品一变形,观众马上出戏。
口红至少准备:
| 产品图 | 用途 |
|---|---|
| 正面图 | 包装完整,给结尾和产品展示 |
| 侧面图 | 看清色柱、外壳材质 |
| 45 度斜侧图 | 最常用,可同时看到正面和侧面 |
| 旋开状态 | 展示膏体颜色 |
| 使用状态 | 手拿、靠近嘴唇、涂抹 |
| logo 特写 | 收尾品牌名和包装细节 |
如果是客户真实品牌,要注意版权和商标授权。
如果只是练习,建议用虚构品牌。
不要随手生成真实品牌 logo 并商用。
对于真实品牌项目,应该由客户提供:
- 官方产品图
- logo 矢量文件
- 品牌字体
- 色号信息
- 包装规范
- 使用授权
Image2 可以帮你做概念图和参考图,但最终商业投放要人工核对品牌一致性。
10. 产品提示词示例
正面产品图:
生成一支高端口红产品摄影图。
产品:圆柱形金属口红管,玫瑰金外壳,品牌名位置留白,不生成真实品牌文字。
画面:产品正面竖直站立,白色背景,柔和棚拍光,底部轻微反射。
要求:包装完整、无遮挡、边缘清晰、比例真实、不要手、不要人物、不要杂乱道具。
45 度斜侧图:
同一支玫瑰金口红,45 度斜侧角度,能同时看到正面和侧面。
外壳材质为细腻金属,光线柔和,产品轮廓清晰。
保持和正面图相同设计,不要新增文字,不要改变颜色。
旋开状态:
同一支口红旋开状态,露出砖红色膏体。
膏体边缘干净,切面自然,外壳仍是玫瑰金。
白色背景,高端产品摄影,光线柔和。
使用状态:
一只女性手拿着同一支玫瑰金口红,靠近嘴唇准备涂抹。
画面为特写,重点是口红膏体、手指和嘴唇。
要求手指自然,不要多指,不要变形,不要让口红变成笔。
生成后,把可用图固定编号:
product_front_01.png
product_side_01.png
product_45_01.png
product_open_01.png
product_use_01.png
logo_closeup_01.png
后面所有视频镜头都引用这些文件。
11. 音色设定:不要到最后才想声音
很多人视频都剪完了,才开始配音。
这会出问题。
声音其实要在脚本阶段就定。
音频至少分三类:
旁白
人物对白
环境音
旁白音色和人物对白音色要分开。
不要一个声音包打天下。
本案例旁白设定:
女性声音。
30 到 40 岁感。
低沉、温柔、克制。
非甜美型。
语速中慢。
像高端品牌广告旁白。
先生成 30 秒样本试听。
确认后记录:
工具
音色 ID
语速
情绪参数
采样日期
样本文案
全片统一用同一个音色。
中途不要换。
12. 第二步:脚本规划
资产备好后,再写脚本。
广告脚本先定叙事结构。
跨境电商和品牌广告常见结构是:
痛点
-> 产品出现
-> 效果证明
-> 情绪升华
-> 行动号召
但口红广告不一定要直白讲功效。
本案例改成:
产品出现
-> 四个女人的故事
-> 嘴唇汇聚
-> 品牌收尾
这样更像品牌片。
不是喊:
买它,因为它不脱妆。
而是讲:
涂上它,然后开口。
情绪比参数更重要。
13. 每个镜头必须标清六件事
每个镜头都要写清楚:
1. 景别
2. 主体行为
3. 运镜方式
4. 情绪氛围
5. 预计时长
6. 是否有人说话
这六件事不写清楚,后面 Sora2 提示词一定会散。
比如不要写:
女生涂口红。
要写:
镜头 03
景别:宿舍中近景
主体行为:20 岁女生坐在桌前,拿起口红,短暂停顿后轻轻涂上
运镜:固定镜头,轻微推近
情绪:紧张、准备开始直播
时长:6 秒
说话:无,只保留呼吸和环境音
这才是可生成的镜头。
14. 镜头时长怎么定
建议按这个标准:
| 镜头类型 | 建议时长 |
|---|---|
| 产品特写 | 4 到 5 秒 |
| 静态情绪镜头 | 4 到 6 秒 |
| 人物中景动作 | 5 到 8 秒 |
| 复杂动作 | 6 到 10 秒 |
| 交代空间 | 5 到 8 秒 |
| 过渡镜头 | 2 到 4 秒 |
不要强行拉长。
能拆就拆。
比如“拿口红、涂口红、抬头开口”可以拆成三段:
手拿起口红。
嘴唇涂抹特写。
人物抬头准备说话。
拆开后,每段质量会高很多。
切镜头比强行延长更自然。
15. 本案例 15 个镜头分镜表
可以先这样拆。
| 镜头 | 内容 | 景别 | 秒数 | 生成方式 |
|---|---|---|---|---|
| 01 | 口红在白色背景中缓慢旋转 | 产品特写 | 5 | 纯提示词 + 产品图 |
| 02 | 口红旋开,露出膏体 | 产品特写 | 5 | 产品图生视频 |
| 03 | 20 岁女生宿舍涂口红 | 中近景 | 7 | 参考图 + Sora2 |
| 04 | 女生深呼吸,点直播按钮 | 中景 | 6 | 尾帧衔接 |
| 05 | 30 岁职场女性在洗手间补妆 | 中近景 | 7 | 场景图 + 人物图 |
| 06 | 她看向镜子,眼神变坚定 | 近景 | 5 | 尾帧衔接 |
| 07 | 35 岁女性走进会议室 | 全景 | 7 | 纯提示词 + 场景图 |
| 08 | 她放下口红,准备发言 | 中景 | 6 | 参考图 |
| 09 | 45 岁女性在梳妆台前涂口红 | 近景 | 7 | 参考图 |
| 10 | 她合上口红,微笑看向镜子 | 中近景 | 6 | 尾帧衔接 |
| 11 | 60 岁女性站在逆光走廊 | 全景 | 6 | 场景图 + 人物图 |
| 12 | 她轻轻开口,表情平静 | 近景 | 5 | 参考图 |
| 13 | 四个嘴唇特写快速汇聚 | 快切特写 | 8 | 故事板/分镜模式 |
| 14 | 产品色号排列,品牌氛围镜头 | 产品展示 | 7 | 产品图生视频 |
| 15 | 品牌口号和产品收尾 | 定帧/轻动效 | 6 | Image2 + 后期 |
总时长大约 90 到 100 秒。
如果加旁白和慢节奏留白,可以扩到 115 秒。
16. 上篇检查清单
进入 Sora2 生成视频之前,先确认这些资产已经备好:
人物资产:
[ ] 全身三视图
[ ] 正面半身
[ ] 脸部近景
[ ] 表情组
[ ] 服装细节
[ ] 手拿产品动作图
场景资产:
[ ] 无人全景
[ ] 无人中景
[ ] 无人近景
[ ] 光线参考
[ ] 道具细节
产品资产:
[ ] 正面图
[ ] 侧面图
[ ] 45 度图
[ ] 旋开状态
[ ] 使用状态
[ ] logo / 品牌文字后期素材
音频资产:
[ ] 旁白音色样本
[ ] 人物对白音色
[ ] 环境音素材
[ ] 背景音乐
分镜资产:
[ ] 叙事结构已经确定
[ ] 每个镜头写清景别、行为、运镜、情绪、时长、说话情况
[ ] 每个镜头都有参考图或说明为什么不需要参考图
[ ] 复杂动作已经拆短
[ ] 产品、人物、场景的命名统一
17. 上篇总结与下篇预告
这一篇只做一件事:
把长视频生成前的资产和分镜准备好。
如果这一步没做好,后面用再强的视频模型也会乱。
人物会变脸。
产品会变形。
场景会跳。
镜头会接不上。
所以先用 Image2 做好:
人物设定。
场景设定。
产品设定。
音色设定。
分镜表。
下一篇继续讲:
怎么用 4SAPI Sora2 分段生成视频。
怎么用尾帧衔接解决连续性。
怎么剪辑、配音、调色。
怎么记录成本和失败镜头。
做到这里,你还没有真正开始“生成长视频”。
但你已经完成了最重要的前置工作。
资料来源与延伸阅读
- 4SAPI 文档:图片生成(gpt-image-2) https://4sapi.apifox.cn/447631659e0
- 4SAPI 文档:图像编辑(gpt-image-2) https://4sapi.apifox.cn/448573555e0
- 4SAPI 文档:创建视频任务(Sora) https://4sapi.apifox.cn/420227569e0
- 4SAPI 文档:获取用户分组 https://4sapi.apifox.cn/431006249e0
- 4SAPI 官网:https://4sapi.com/