title: " 模型原理 | 路由省钱" category: 人工智能 tags:
- 大模型API中转站
- Token
- Scaling Law
- MoE
- 推理模型
- 多模态
- 4SAPI description: "用开发者视角解释Token、参数、Scaling Law、MoE、推理模型和多模态,并给出基于4SAPI的模型分层、路由、省钱和验收策略。"
上一篇我们讲了 AI 为什么会幻觉,以及怎么用提示词、检索、校验和日志把幻觉压下去。
这一篇继续往底层走一点。
但不讲公式。
我们只回答开发者最关心的 5 个问题:
Token 为什么决定成本?
参数越多是不是越聪明?
MoE 为什么看起来又强又便宜?
推理模型为什么适合写代码和排Bug?
多模态为什么能看截图、听语音、读表格?
理解这些概念,不是为了显得懂理论。
真正的价值是做模型路由:
简单任务用便宜模型。
复杂任务用强模型。
需要最新信息先搜索。
需要看图就切多模态。
需要可靠性就加校验和日志。
这也是大模型API中转站最适合发挥价值的地方。
1. Token:成本从这里开始
大模型不是按“问题个数”干活,而是按 Token 处理文本。
一次请求大致会消耗:
输入Token + 输出Token = 本次调用的主要计费基础
输入 Token 包括:
| 类型 | 例子 |
|---|---|
| 系统提示词 | 角色、规则、输出格式 |
| 用户问题 | 用户当前输入 |
| 历史消息 | 多轮对话上下文 |
| 检索资料 | RAG召回的文档片段 |
| 工具参数 | function calling、MCP、Agent工具参数 |
输出 Token 包括模型生成的答案、代码、JSON、报告等。
所以要省钱,第一反应不是换模型,而是先看:
是不是每次都塞了太多无关上下文?
是不是历史对话没有裁剪?
是不是RAG召回太宽?
是不是输出格式过度冗长?
很多系统降本 30% 到 50%,靠的不是换供应商,而是把 prompt 和上下文清理干净。
2. 参数:模型学到的“知识数字”
训练大模型时,会有大量参数。
可以粗略理解为:
参数 = 模型在训练中学到的可调数字
模型读海量文本,预测下一个 Token。
预测错了,就调整参数。
反复训练之后,语言规律、代码模式、事实片段、推理套路,会被压缩进这些参数里。
参数越多,模型通常越有容量,能装下更复杂的规律。
但参数不是越多越划算。
因为模型能力还取决于:
训练数据质量
训练数据数量
算力
模型结构
后训练和对齐
工具调用能力
上下文长度
推理时算力
这也是为什么同样号称“大参数”的模型,实际写代码、长文理解、函数调用、中文表达能力可能差很多。
3. Scaling Law:为什么大模型越做越大
2020 年 OpenAI 团队提出过一组缩放规律,核心意思是:
模型规模、数据量、计算量增加时,语言模型性能会呈现可预测提升。
后来 DeepMind 的 Chinchilla 工作又指出:
只堆参数不够,训练Token也要跟上。
他们给出的经验是,计算最优训练往往需要更多训练 Token,而不是单纯做一个参数巨大但训练不足的模型。
对开发者来说,不需要背论文细节。
记住一个工程结论就够了:
强模型贵,不只是因为参数多,而是因为训练、推理、上下文、工具和服务稳定性都贵。
所以模型选型不能只看排行榜。
还要看你的业务负载:
| 业务 | 更看重 |
|---|---|
| 客服问答 | 稳定、低延迟、低成本 |
| 代码 Agent | 长上下文、工具调用、推理能力 |
| 内容批量生产 | 成本、并发、风格稳定 |
| 研究报告 | 搜索、引用、长文整合 |
| 表格/票据识别 | 多模态、结构化输出 |
4. MoE:不是每次都叫醒所有专家
如果每次回答都动用全部参数,成本会很高。
MoE,也就是 Mixture of Experts,混合专家架构,思路很像分诊:
一个模型里有多个专家模块。
每个Token进来后,由路由器判断该交给哪些专家。
只有少数专家被激活。
这样做的好处是:
总参数可以很大,容量更足。
单次激活参数较少,推理成本更低。
你可以把它想成一个大型技术团队。
不是每个需求都拉全公司开会。
前端问题找前端,数据库问题找 DBA,架构问题再拉更强的人。
这就是为什么一些 MoE 模型看起来“总参数很大”,但调用价格和速度还能接受。
但 MoE 也不是万能。
它依赖路由质量。
如果路由错了,或者任务需要多个专家之间复杂协作,结果仍然可能不稳。
所以线上系统里,MoE 模型更适合通过真实任务测试,而不是只看参数宣传。
5. 推理模型:多想一会儿,少返工一点
普通聊天模型更像快速回答。
推理模型更像先在内部拆题、规划、验证,再给最终答案。
它适合这些任务:
复杂代码修改
架构设计
疑难Bug排查
数学和逻辑题
多约束方案比较
长链路Agent任务
不适合什么?
改一个按钮文案
翻译一句话
生成一段普通营销文案
简单摘要
固定格式客服回复
因为推理模型通常更慢、更贵。
所以正确用法不是“所有请求都上推理模型”,而是分层:
普通模型:快、便宜,处理80%的简单请求
推理模型:慢、贵,处理20%的复杂请求
兜底模型:当普通模型失败或校验不通过时再调用
在 4SAPI 里,你可以把这些模型放到不同令牌、不同分组或不同路由策略里,方便统计成本和效果。
6. 多模态:让模型看见更多上下文
多模态模型能处理文字以外的信息,比如:
图片
截图
语音
视频片段
PDF页面
表格截图
它的基本思路仍然是把不同信息转换成模型能处理的数字表示,再放到统一空间里理解。
对开发者最实用的场景是截图调试。
比如前端样式问题,用文字描述很费劲:
右上角那个按钮好像偏了一点,表格下面空白太多,移动端标题挤在一起。
直接给截图,模型会更快定位问题。
多模态尤其适合:
| 场景 | 用法 |
|---|---|
| 前端验收 | 上传页面截图,让模型指出布局问题 |
| 发票/票据 | OCR + 结构化字段提取 |
| 产品客服 | 用户上传故障截图,模型辅助判断 |
| 数据报表 | 读图表趋势,再生成解释 |
| 设计走查 | 检查视觉层级、对齐、颜色异常 |
但要注意:看图模型也会幻觉。
尤其是截图很糊、文字太小、图片被裁切时,它可能会猜。
所以关键业务仍然要做结构化校验。
7. 一套可落地的模型路由
把前面这些概念落到 4SAPI,可以设计一套很实用的路由。
用户请求
-> 任务分类
-> 选择模型
-> 生成结果
-> 校验
-> 失败时升级模型或补充检索
7.1 任务分类
先把请求分成几类:
| 类型 | 例子 | 推荐模型 |
|---|---|---|
| 轻量文本 | 改标题、翻译、短摘要 | 低成本通用模型 |
| 事实问答 | 最新价格、政策、文档 | 搜索/RAG + 通用模型 |
| 代码任务 | 改Bug、写测试、解释仓库 | Coding模型或强通用模型 |
| 复杂推理 | 架构、排障、方案权衡 | 推理模型 |
| 图片理解 | 截图、票据、UI检查 | 多模态模型 |
| 批量生产 | 批量改写、分类、打标签 | 低成本模型 + 严格格式校验 |
7.2 路由规则
可以写成很简单的规则:
if 包含图片:
使用多模态模型
elif 包含“最新/今天/价格/政策/版本”:
先联网搜索,再用通用模型总结
elif 任务包含“架构/疑难Bug/多约束/推理”:
使用推理模型
elif 任务是批量分类或改写:
使用低成本模型,低temperature
else:
使用默认通用模型
再加一个失败升级:
if JSON校验失败:
带错误信息重试一次
if 仍失败:
升级到更强模型
if 回答缺少来源:
重新检索或拒绝输出确定结论
7.3 4SAPI 调用示例
下面是一个最小化示例。
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.FOURSAPI_API_KEY,
baseURL: "https://4sapi.com/v1",
});
type TaskType = "cheap" | "reasoning" | "vision" | "search";
const modelMap: Record<TaskType, string> = {
cheap: "从4SAPI模型列表复制低成本模型名",
reasoning: "从4SAPI模型列表复制推理模型名",
vision: "从4SAPI模型列表复制多模态模型名",
search: "从4SAPI模型列表复制联网或通用模型名",
};
async function ask(taskType: TaskType, prompt: string) {
const completion = await client.chat.completions.create({
model: modelMap[taskType],
temperature: taskType === "cheap" ? 0.3 : 0.1,
messages: [
{
role: "system",
content: "你是严谨的技术助手。事实不足时直接说明,不编造。",
},
{
role: "user",
content: prompt,
},
],
});
return completion.choices[0]?.message?.content;
}
生产里不要把 modelMap 写死在代码中。
更好的方式是放配置中心:
default_model
cheap_model
reasoning_model
vision_model
fallback_model
这样当价格、能力、稳定性变化时,不用发版就能调整。
8. 成本治理清单
最后给一份适合团队落地的清单。
| 项目 | 建议 |
|---|---|
| 模型分层 | 默认、低成本、推理、多模态、兜底分开 |
| Key管理 | 测试、生产、批量任务使用不同令牌 |
| Token日志 | 记录输入、输出、模型、任务类型 |
| Prompt版本 | 每次改提示词要有版本号 |
| 检索开关 | 只在需要最新资料时打开 |
| 上下文裁剪 | 保留关键片段,减少整段粘贴 |
| 输出限制 | JSON、SQL、配置必须校验 |
| 失败升级 | 先重试,再升级模型,不要无限循环 |
| 周报复盘 | 看最高成本任务、失败率、平均延迟 |
一句话总结:
懂一点大模型原理,最终是为了少花冤枉钱,少让AI在生产环境里乱猜。
Token 决定成本,参数决定容量,MoE 影响性价比,推理模型解决复杂任务,多模态扩展输入边界。
把这些能力通过 4SAPI 统一接入、统一日志、统一分组,再配上任务路由,你就不会被某一个模型或某一个供应商绑死。
参考资料: