title: " Image2资产前置 | AI长视频先别急着生成" category: 人工智能 tags:


很多人开始用 AI 做长视频,基本都会卡在同一个地方:

单次视频生成时间太短。

你想做一条完整广告。

结果模型一次只给你几秒到十几秒。

想做 60 秒、90 秒、120 秒,只能拼。

一拼就出问题:

很多人以为换工具就能解决。

从一个视频模型换到另一个视频模型。

结果还是一样。

因为问题不在某一个模型。

问题在流程。

AI 长视频不是一次生成出来的。

它更像拍广告:

先定资产。
再写脚本。
再拆镜头。
再逐段生成。
再剪辑拼接。
最后做音频和调色。

所以这次拆成上下两篇。

第84期只解决前半段:

不要急着生成视频。
先把 Image2 资产和分镜表做稳。

第85期再继续讲:

4SAPI Sora2 接入。
分镜生视频。
尾帧衔接。
剪辑拼接。
音频处理。
成本治理。

工具组合是:

Image2:用 4SAPI 的 gpt-image-2 做角色、场景、产品资产。
Sora2:下一篇用 4SAPI 的 Sora2 做图生视频和分镜片段。
剪辑软件:剪映、Premiere、DaVinci Resolve 都可以。
音频工具:ElevenLabs、MiniMax、TTS 或真人配音。

注意,4SAPI 文档里图片模型是 gpt-image-2,视频任务示例里模型字段写的是 sora-2,而用户分组里能看到 sora2 分组。

这两个名字不要混:

sora2:常见于分组或口头称呼。
sora-2:视频任务里常见的模型字段。

具体以你调用时 4SAPI Apifox 文档和后台模型列表为准。

1. 先说结论:长视频不是拉长,是拆短

AI 长视频最反直觉的一点是:

不要试图让模型一次生成很长。

越长越容易坏。

人脸会飘。

手会变形。

产品会换包装。

镜头会自己乱转。

更稳的思路是:

把 100 秒广告拆成 10 到 20 个短镜头。
每个镜头只承担一个动作。
每段只做 4 到 12 秒。
最后靠剪辑和音频把它们连起来。

这不是妥协。

这就是现在 AI 视频生产的基本工作方式。

真正决定成片质量的不是某一段视频多长。

而是:

如果你前面资产没做,后面靠提示词补救,基本救不回来。

2. 本文案例:一条 115 秒品牌口红广告

我们用一个口红广告作为例子。

广告主题:

涂上它,然后开口。

核心叙事不是“这支口红多好看”。

而是:

不同年龄的女性,在关键时刻开口表达自己。

角色分成五段:

角色 场景 情绪
20 岁女生 宿舍直播前 紧张但想表达
30 岁职场女性 写字楼洗手间 调整状态,准备上场
35 岁会议室女性 会议室 克制、坚定
45 岁女性 家居梳妆台 温柔但有力量
60 岁女性 走廊或窗边 平静、自信

产品是口红。

我们需要它在不同镜头里保持一致:

整条片子目标是 100 秒以上。

但不追求一镜到底。

我们会拆成 15 个镜头,每个镜头 4 到 10 秒。

3. 工具链总览

这一套流程建议这样分工:

环节 推荐工具 作用
角色资产 4SAPI gpt-image-2 生成人物三视图、半身、表情、特写
场景资产 4SAPI gpt-image-2 生成空景、景别图、光线参考
产品资产 4SAPI gpt-image-2 / 图片编辑 生成正面、侧面、45 度、使用状态
视频片段 4SAPI Sora2 根据参考图和提示词生成短视频
状态查询 4SAPI 视频任务状态接口 查询异步视频任务进度
剪辑拼接 剪映 / PR / DaVinci 拼接、转场、调色、字幕
配音 ElevenLabs / MiniMax / TTS / 真人 生成旁白和对白
成本治理 4SAPI 日志和统计 看 token、任务、模型消耗和失败原因

注意,这里不是说必须全程只用一个工具。

但主链路要尽量稳定:

图片资产用同一套模型。
视频片段用同一套模型。
剪辑和音频在后期统一处理。

如果你每段都换模型,风格一致性会更难控。

4. 第一步:资产前置

所有一致性问题,根源都在资产前置没做好。

很多人做 AI 视频,一上来就写:

一个漂亮女性在镜头前涂口红,电影感,高清,广告片。

模型当然能生成。

但下一段就换脸。

再下一段口红换包装。

再下一段场景光线变了。

所以第一步不要生成视频。

先用 Image2 做资产。

资产至少分四类:

人物
场景
产品
音色

5. 人物设定:三视图、半身、表情、细节

人物资产要尽量具体。

至少准备:

资产 用途
全身三视图 锁定人物比例、发型、服装
正面半身图 给中近景和对话镜头用
脸部近景 给表情和口型参考
表情组 自然、微笑、紧张、坚定
服装细节 衣领、袖口、配饰、耳环、项链
动作参考 拿口红、涂口红、看镜子、转身

人物提示词可以这样写:

生成一张广告片角色设定图。
角色:30 岁亚洲职场女性,黑色短发,干净自然妆容,穿米白色西装外套和浅色衬衫。
画面:全身三视图,正面、侧面、背面并排,白色背景,柔和棚拍光。
要求:同一人物,同一发型,同一服装,同一鞋子,同一配饰。不要夸张姿势,不要杂乱背景。
风格:真实广告人物设定图,清晰、干净、可用于后续视频参考。

半身图提示词:

基于同一位 30 岁亚洲职场女性,生成正面半身设定图。
镜头到胸口,人物看向镜头,表情克制自信。
保持同一发型、同一服装、同一妆容、同一配饰。
背景纯白,柔和棚拍光,不要加入额外道具。

表情组提示词:

同一位女性角色,生成四宫格表情设定图:
1. 自然闭嘴
2. 轻微微笑
3. 深呼吸前的紧张
4. 准备开口时的坚定
要求脸型、发型、妆容、服装完全一致。

这里用 4SAPI 的 gpt-image-2 做文本生图就够。

如果某张脸好,但衣服不对,可以走 gpt-image-2 图像编辑接口,让模型只改衣服或配饰。

6. 本案例的人物资产怎么做

我们准备五个角色:

20 岁宿舍女生
30 岁职场女性
35 岁会议室女性
45 岁梳妆台女性
60 岁窗边女性

每个角色都要出:

尤其是嘴唇特写。

口红广告最容易翻车的不是大场景。

而是:

嘴唇、牙齿、手指、口红膏体。

这些细节必须单独出参考图。

否则 Sora2 生成视频时,手指容易多一根,口红容易变成笔,嘴唇边缘会糊。

7. 场景设定:先出无人空景

场景不要直接带人物生成。

先出无人空景。

原因很简单:

场景负责光线、色调和空间结构。
人物负责身份、动作和情绪。
两者先分开,后面更好控。

每个场景至少出三张:

景别 用途
全景 交代空间
中景 人物和环境关系
近景 物品、镜子、桌面、门缝等细节

场景提示词示例:

生成一个写字楼洗手间空景,用于高端口红广告。
空间:现代写字楼洗手间,干净镜面,浅灰石材台面,柔和顶光,轻微冷色调。
景别:中景,镜子和洗手台占画面主体,画面中不要有人。
气氛:清晨上班前,安静、克制、真实。
要求:不要出现文字,不要品牌 logo,不要杂乱物品,不要夸张反光。

如果你要让同一个场景在多个镜头里出现,建议再做一段 360 度环视参考。

方法是:

先用 Image2 出空景图。
再用 Sora2 生成 4 秒轻微环视视频。
后面生人物镜头时,把空景图或环视帧作为参考。

这不能保证 100% 一致。

但比每段重新描述场景稳定很多。

8. 本案例的场景资产

这条广告准备四套主场景:

宿舍
写字楼洗手间
会议室
家居梳妆台
窗边走廊

每套场景出:

宿舍要偏年轻:

桌上有台灯、笔记本电脑、简单床铺,但不要乱。

写字楼洗手间要偏克制:

镜面、冷光、干净台面。

会议室要偏压迫:

长桌、玻璃墙、投影屏、冷色光。

梳妆台要偏温暖:

木质台面、暖色台灯、镜子、口红摆放。

窗边走廊要偏升华:

逆光、柔光、安静、人物轮廓清晰。

9. 产品设定:口红至少五类图

产品资产比人物更重要。

广告里产品一变形,观众马上出戏。

口红至少准备:

产品图 用途
正面图 包装完整,给结尾和产品展示
侧面图 看清色柱、外壳材质
45 度斜侧图 最常用,可同时看到正面和侧面
旋开状态 展示膏体颜色
使用状态 手拿、靠近嘴唇、涂抹
logo 特写 收尾品牌名和包装细节

如果是客户真实品牌,要注意版权和商标授权。

如果只是练习,建议用虚构品牌。

不要随手生成真实品牌 logo 并商用。

对于真实品牌项目,应该由客户提供:

Image2 可以帮你做概念图和参考图,但最终商业投放要人工核对品牌一致性。

10. 产品提示词示例

正面产品图:

生成一支高端口红产品摄影图。
产品:圆柱形金属口红管,玫瑰金外壳,品牌名位置留白,不生成真实品牌文字。
画面:产品正面竖直站立,白色背景,柔和棚拍光,底部轻微反射。
要求:包装完整、无遮挡、边缘清晰、比例真实、不要手、不要人物、不要杂乱道具。

45 度斜侧图:

同一支玫瑰金口红,45 度斜侧角度,能同时看到正面和侧面。
外壳材质为细腻金属,光线柔和,产品轮廓清晰。
保持和正面图相同设计,不要新增文字,不要改变颜色。

旋开状态:

同一支口红旋开状态,露出砖红色膏体。
膏体边缘干净,切面自然,外壳仍是玫瑰金。
白色背景,高端产品摄影,光线柔和。

使用状态:

一只女性手拿着同一支玫瑰金口红,靠近嘴唇准备涂抹。
画面为特写,重点是口红膏体、手指和嘴唇。
要求手指自然,不要多指,不要变形,不要让口红变成笔。

生成后,把可用图固定编号:

product_front_01.png
product_side_01.png
product_45_01.png
product_open_01.png
product_use_01.png
logo_closeup_01.png

后面所有视频镜头都引用这些文件。

11. 音色设定:不要到最后才想声音

很多人视频都剪完了,才开始配音。

这会出问题。

声音其实要在脚本阶段就定。

音频至少分三类:

旁白
人物对白
环境音

旁白音色和人物对白音色要分开。

不要一个声音包打天下。

本案例旁白设定:

女性声音。
30 到 40 岁感。
低沉、温柔、克制。
非甜美型。
语速中慢。
像高端品牌广告旁白。

先生成 30 秒样本试听。

确认后记录:

工具
音色 ID
语速
情绪参数
采样日期
样本文案

全片统一用同一个音色。

中途不要换。

12. 第二步:脚本规划

资产备好后,再写脚本。

广告脚本先定叙事结构。

跨境电商和品牌广告常见结构是:

痛点
  -> 产品出现
  -> 效果证明
  -> 情绪升华
  -> 行动号召

但口红广告不一定要直白讲功效。

本案例改成:

产品出现
  -> 四个女人的故事
  -> 嘴唇汇聚
  -> 品牌收尾

这样更像品牌片。

不是喊:

买它,因为它不脱妆。

而是讲:

涂上它,然后开口。

情绪比参数更重要。

13. 每个镜头必须标清六件事

每个镜头都要写清楚:

1. 景别
2. 主体行为
3. 运镜方式
4. 情绪氛围
5. 预计时长
6. 是否有人说话

这六件事不写清楚,后面 Sora2 提示词一定会散。

比如不要写:

女生涂口红。

要写:

镜头 03
景别:宿舍中近景
主体行为:20 岁女生坐在桌前,拿起口红,短暂停顿后轻轻涂上
运镜:固定镜头,轻微推近
情绪:紧张、准备开始直播
时长:6 秒
说话:无,只保留呼吸和环境音

这才是可生成的镜头。

14. 镜头时长怎么定

建议按这个标准:

镜头类型 建议时长
产品特写 4 到 5 秒
静态情绪镜头 4 到 6 秒
人物中景动作 5 到 8 秒
复杂动作 6 到 10 秒
交代空间 5 到 8 秒
过渡镜头 2 到 4 秒

不要强行拉长。

能拆就拆。

比如“拿口红、涂口红、抬头开口”可以拆成三段:

手拿起口红。
嘴唇涂抹特写。
人物抬头准备说话。

拆开后,每段质量会高很多。

切镜头比强行延长更自然。

15. 本案例 15 个镜头分镜表

可以先这样拆。

镜头 内容 景别 秒数 生成方式
01 口红在白色背景中缓慢旋转 产品特写 5 纯提示词 + 产品图
02 口红旋开,露出膏体 产品特写 5 产品图生视频
03 20 岁女生宿舍涂口红 中近景 7 参考图 + Sora2
04 女生深呼吸,点直播按钮 中景 6 尾帧衔接
05 30 岁职场女性在洗手间补妆 中近景 7 场景图 + 人物图
06 她看向镜子,眼神变坚定 近景 5 尾帧衔接
07 35 岁女性走进会议室 全景 7 纯提示词 + 场景图
08 她放下口红,准备发言 中景 6 参考图
09 45 岁女性在梳妆台前涂口红 近景 7 参考图
10 她合上口红,微笑看向镜子 中近景 6 尾帧衔接
11 60 岁女性站在逆光走廊 全景 6 场景图 + 人物图
12 她轻轻开口,表情平静 近景 5 参考图
13 四个嘴唇特写快速汇聚 快切特写 8 故事板/分镜模式
14 产品色号排列,品牌氛围镜头 产品展示 7 产品图生视频
15 品牌口号和产品收尾 定帧/轻动效 6 Image2 + 后期

总时长大约 90 到 100 秒。

如果加旁白和慢节奏留白,可以扩到 115 秒。

16. 上篇检查清单

进入 Sora2 生成视频之前,先确认这些资产已经备好:

人物资产:
[ ] 全身三视图
[ ] 正面半身
[ ] 脸部近景
[ ] 表情组
[ ] 服装细节
[ ] 手拿产品动作图

场景资产:
[ ] 无人全景
[ ] 无人中景
[ ] 无人近景
[ ] 光线参考
[ ] 道具细节

产品资产:
[ ] 正面图
[ ] 侧面图
[ ] 45 度图
[ ] 旋开状态
[ ] 使用状态
[ ] logo / 品牌文字后期素材

音频资产:
[ ] 旁白音色样本
[ ] 人物对白音色
[ ] 环境音素材
[ ] 背景音乐

分镜资产:
[ ] 叙事结构已经确定
[ ] 每个镜头写清景别、行为、运镜、情绪、时长、说话情况
[ ] 每个镜头都有参考图或说明为什么不需要参考图
[ ] 复杂动作已经拆短
[ ] 产品、人物、场景的命名统一

17. 上篇总结与下篇预告

这一篇只做一件事:

把长视频生成前的资产和分镜准备好。

如果这一步没做好,后面用再强的视频模型也会乱。

人物会变脸。

产品会变形。

场景会跳。

镜头会接不上。

所以先用 Image2 做好:

人物设定。
场景设定。
产品设定。
音色设定。
分镜表。

下一篇继续讲:

怎么用 4SAPI Sora2 分段生成视频。
怎么用尾帧衔接解决连续性。
怎么剪辑、配音、调色。
怎么记录成本和失败镜头。

做到这里,你还没有真正开始“生成长视频”。

但你已经完成了最重要的前置工作。

资料来源与延伸阅读