一个浏览器插件,如何让 DeepSeek 网页版从“单轮对话界面”蜕变为“自主智能体”?本文从代码层面拆解 MCP、记忆与 Skill 三大组件协同工作的内在逻辑。
一、背景:网页版的能力缺口与社区补全
1.1 免费入口,受限体验
2026 年 4 月,深度求索发布 DeepSeek-V4 系列并全面开源,其中 deepseek-v4-pro 与 deepseek-v4-flash 均原生支持百万级 token 上下文,在智能体、世界知识和复杂推理方面达到同期领先水准。Flash 版本采用 MoE 架构,总参数量 284B、激活仅 13B,配合 DSA2 稀疏注意力,计算开销与 KV 缓存占用大幅降低。
然而,官方网页版仅保留基础对话功能,缺乏长期记忆、工具调度、技能预设和自动化运行等能力。用户每次新建会话都需重新描述自身背景,无法对接外部工具,更无法执行定时任务,模型潜力远未释放。
1.2 插件登场:DeepSeek++ 的定位
2026 年 5 月 24 日,配合 DeepSeek V4 网页版对公众开放,开发者社区推出浏览器扩展 DeepSeek++。其设计目标十分明确:在不修改官方网页任何后端代码的前提下,通过浏览器扩展的开放接口补齐缺失的智能体能力。
该扩展注入六项核心增强:
- 类原生工具调用:基于 XML 协议的自动化工具执行
- MCP 工具系统:标准 MCP 协议,兼容本地/远程工具
- Agentic 记忆系统:跨会话的持久化记忆,自动萃取与复用
- Skill 技能系统:内置多类技能并支持自定义
- 系统提示词预设:多角色快速切换
- 定时自动化任务:Cron 风格的任务编排
2026 年 6 月初发布的 0.5.1 版本标志着项目从单一记忆插件演进为完整的 AI 工具平台。接下来,我们将从源码角度重点剖析 MCP 工具系统、Agentic 记忆与 Skill 调度这三者的衔接方式。
二、架构全景:作为浏览器中间件的扩展
2.1 零后端依赖
DeepSeek++ 的精要之处在于全程运行在浏览器沙箱内,不部署任何后台服务。它扮演“请求-响应”路径上的中间拦截者角色,在进出浏览器的网络流量中植入工具执行逻辑,将结果无缝拼合进对话流。
2.2 源码目录轮廓
项目结构大致如下(据公开分析):
deepseek-pp/
├── src/
│ ├── content_scripts/
│ │ ├── main.ts # 主世界:DOM 交互、/ 面板
│ │ └── isolated.ts # 隔离世界:网络拦截
│ ├── skill-registry.ts # 技能注册表
│ ├── memory/
│ │ └── memory-manager.ts # 记忆治理
│ ├── mcp/
│ │ └── mcp-client.ts # MCP 客户端
│ └── automation/
│ └── cron-scheduler.ts # 定时任务调度
2.3 双世界内容脚本
扩展注入两套内容脚本,利用 Chrome 扩展的不同执行环境:
- 主世界(MAIN world) :与网页共享全局变量和 DOM,负责绘制技能面板、拦截输入框取值(通过
Object.getOwnPropertyDescriptor绕过 React 受控组件限制)。 - 隔离世界(Isolated world) :运行于独立沙箱,持有网络请求拦截权,通过覆写
window.fetch和XMLHttpRequest.prototype.send实现。
两者均在 document_start 时机注册,即 HTML 下载完毕、页面脚本运行之前插入。这种隔离设计确保即使网页被注入恶意代码,请求拦截和本地密钥存储仍处于保护之中。
三、MCP 工具系统:让模型拥有可执行“外设”
3.1 MCP 协议简释
MCP(Model Context Protocol)是 Anthropic 提出的开放标准,采用 JSON-RPC 架构与 schema 定义,将外部工具抽象为 MCP 服务器,供语言模型动态发现和调用。它统一了工具的描述、参数和调用接口,避免每个工具独立适配。
3.2 DeepSeek++ 的 MCP 实现
扩展在侧栏中提供 MCP 服务的可视化管控,支持多种传输方式:
- HTTP:远程 REST API 工具
- SSE:流式传输工具
- stdio bridge:本地命令行工具
- Native Messaging:浏览器原生通信
0.5.1 版集成了 Shell MCP 和 OfficeCLI,使模型能够操作本地命令行及处理办公文档格式。同时内置 web_search 与 web_fetch 工具,提升实时检索准确性。
3.3 调用流程拆解
MCP 工具调用遵循四个阶段:
- 工具发现:扩展启动时,通过 MCP 客户端向各 MCP 服务器请求
tools/list,获取工具 schema。 - 请求拦截与识别:用户消息被隔离世界截获,目标 URL 指向
https://chat.deepseek.com/api/v0/chat/completion的请求进入处理流程。 - 提示增强:拦截器将工具描述注入请求体,使模型获知可用工具列表和参数格式,形成“工具感知层”。
- 响应拦截与执行:模型返回的 XML 格式工具调用指令被解析,扩展驱动 MCP 工具执行,并将结果作为新消息追加回对话,推动模型继续决策。
这一闭环正是 ReAct 模式(思考-行动-观察)在浏览器内的复现。
3.4 前端注入的价值
DeepSeek++ 展现了一种“前端注入”方式——在不依赖服务端改造或官方 API 开放的条件下,借由浏览器扩展为 AI 界面赋予高级功能。这降低了个人用户使用智能体工具的门槛,同时保持了数据的本地属性。
四、Agentic 记忆:跨会话的持久认知
4.1 记忆的动机
原网页版的对话缺乏持续性,每次新会话都对用户一无所知。Agentic 记忆的目标是让 AI 自动留存并理解用户信息,免去反复交代。
4.2 记忆的结构化分类
记忆系统将信息划分为四类管理:
- 用户画像:长期身份与特征(如“我是后端开发者,常用 Go”)
- 行为反馈:对回答风格、格式的偏好
- 话题上下文:特定主题的历史研讨脉络
- 参考信息:需长期保留的事实性数据(如邮箱、项目代号)
AI 主动识别对话中的关键内容并分类存储,用户可在侧栏编辑、固定或导出这些记忆,完全掌控数据。
4.3 存储与检索
记忆数据只存于浏览器本地(LocalStorage/IndexedDB),不传送到任何外部服务器。新对话启动时,系统根据话题相关度、时效性和标记优先级,自动匹配并注入相关记忆。
4.4 记忆与 MCP 的协同效应
记忆系统与工具系统相互配合,构成了个性化智能体的基础。例如,用户曾提及“我习惯用 Rust 编写命令行工具”。当用户说“帮我写个解析日志的小工具”时:
- 记忆模块检索到 Rust 偏好并注入上下文;
- MCP 工具读取日志文件内容;
- 模型综合偏好和文件内容,生成 Rust 代码。
这种“记忆提供个性化上下文,工具提供执行能力”的联动,是扩展智能化的关键。
五、Skill 调度模块:可插拔的专业模式
5.1 Skill 的概念
Skill 是一套面向场景的专家模式切换机制。用户输入 / 触发补全面板,选取某个技能后,对应 system prompt 被注入,使模型以特定专业角色工作。
扩展内置九类技能,涵盖深度推理、前端设计、幻灯片生成、算法编程、Shell 命令、网页搜索、办公文档处理、翻译和代码审查等场景。
5.2 技能实现
技能注册表 skill-registry.ts 维护所有技能定义。调用流程:
- 用户在聊天框键入
/,主世界脚本弹出筛选列表; - 匹配对应技能后,将技能预设的 system prompt 注入请求;
- 模型在限定角色下响应。
Skill 可与记忆联动,例如“前端设计”技能结合记忆中的“偏爱 Material Design”,自动产出贴合用户审美的界面代码。同时,用户能在侧栏自行编写新技能,也可从社区导入他人分享的技能包。
5.3 执行示例
以 /shell ls 为例,完整链路:
- 捕获输入,匹配 shell 技能;
- 隔离世界拦截 API 请求;
- 将
/shell ls转为带系统提示词的完整 prompt,指导模型生成工具调用指令; - MCP 通过 stdio bridge 执行本地
ls命令; - 结果回传,模型整理后呈现给用户。
整个过程对用户而言仅为一次输入,背后完成了识别、匹配、拦截、增强、推理、调用、回传七步。
六、三模块协同:一个完整的自动化场景
6.1 场景示例:每日生成行业简报
假设用户希望每日 9 点自动收到 AI 生成的行业资讯摘要。
- 记忆配置:首次告知 AI 关注领域、简报格式偏好,记忆系统存储。
- Skill 选择:使用 /web_search 和自定义“行业简报”技能,固化为专业处理模式。
- 自动化任务:在定时面板设置 Cron 表达式
0 9 * * *,填写预设 prompt,开启独立会话执行。 - 每日触发:调度器启动会话,记忆注入偏好,Skill 加载范式,MCP 调用搜索工具获取动态,模型生成简报并保存。
6.2 协同机制
各模块分工明确:
- Agentic 记忆:提供“知道什么”(用户偏好与背景);
- Skill 调度:决定“如何思考”(专业化提示模板);
- MCP 工具系统:赋予“能做什么”(外部执行能力);
- 自动化调度:把控“何时做”(定时驱动)。
四者叠加,构成观察、思考、行动的完整智能体循环。
七、同类方案对比
| 维度 | DeepSeek++ | Claude Code | Codex |
|---|---|---|---|
| 运行环境 | 浏览器扩展 | 桌面客户端 | 云端服务 |
| 基础模型 | DeepSeek-V4 | Claude | GPT 系列 |
| 工具调用 | 标准化 MCP | 原生工具 | 函数调用 |
| 记忆系统 | 跨会话 Agentic 记忆 | 会话内记忆 | 有限记忆 |
| 自动化 | Cron 定时任务 | 有限支持 | 风格化编排 |
| 部署方式 | 浏览器本地 | 需安装客户端 | API 集成 |
| 成本 | 依赖网页版免费 | 订阅制 | 按用量计费 |
DeepSeek++ 的独特优势在于零门槛部署和“前端注入”思路。安装仅需加载解压后的扩展目录,无需构建后端服务。这种模式让用户侧的 AI 能力增强不再强依赖官方接口开放,同时所有记忆和密钥存储于本地,符合数据最小化原则。此外,通过集成 MCP 标准,它还能吸附不断丰富的第三方工具生态。
八、安全考量
8.1 积极设计
- 数据主权:记忆、密钥全部存于本地,不经过外部服务器。
- 权限可视化:MCP 工具权限清晰展示,用户可随时调整。
- 沙箱隔离:隔离世界脚本与网页上下文隔绝,即便页面脚本受损,拦截逻辑依然安全。
8.2 潜在风险
- 扩展权限要求“读取和更改所有网站数据”,尽管理论上开源可审计,但普通用户不易验证。
- 当前通过“开发者模式”手动安装,需从非官方分发渠道获取,存在被篡改的可能。
- Shell MCP 使模型可执行本地命令,恶意构造的 prompt 可能触发危险操作,虽有权限管控,仍需警惕。
8.3 安全建议
- 仅通过项目官方发布页面获取版本包,避免二次分发。
- 审慎授权 MCP 工具,移除不常用或高权限项。
- 可为高风险会话使用独立浏览器配置文件,隔离扩展数据。
九、上手与接入
9.1 安装与启用
下载扩展包解压后,在 Chrome 的 chrome://extensions/ 页面开启开发者模式,加载 dist/chrome-mv3/ 目录即可。打开 DeepSeek 网页版,侧边栏图标即出现。
9.2 推荐配置顺序
- 在 Memory 面板中手动添加或让 AI 自动提炼个人偏好。
- 输入
/浏览内置技能,尝试激活一两个。 - 若有本地工具需求,在 MCP 面板添加 stdio 类型服务。
- 设置一个简单定时任务,体会无人值守自动化。
9.3 通过 4SAPI 接入 DeepSeek V4 Pro
除通过网页版增强外,如果开发者希望在自身服务中直接调用 DeepSeek V4 Pro 的推理能力,可以借助 4SAPI 平台。4SAPI 封装了模型鉴权、速率控制和参数配置,提供标准的对话补全接口。用户只需在 4SAPI 控制台创建凭证,选择 deepseek-v4-pro 模型,按照 API 文档发送请求即可获得回复。这种方式便于集成到持续集成流水线、自动报告生成等需要高并发或后台调用的场景,与前端扩展形成互补。
9.4 自定义 Skill
在 Skills 面板可编写新技能,本质是定义一套 system prompt 与可选工具清单。例如:
{
"name": "code-reviewer",
"description": "代码审查专家",
"systemPrompt": "你是一位资深代码审查者,请指出潜在问题并给出改进建议…",
"tools": ["file_read"],
"triggers": ["/review"]
}
保存后即可通过 /review 激活。
十、总结与演进方向
10.1 核心结论
DeepSeek++ 重新定义了网页版 AI 的使用形态。MCP 工具系统扩展了执行边界,Agentic 记忆保存了个性化认知,Skill 调度提供了多模态的角色切换,三者耦合形成“记忆+思考+行动”的自动化智能体基座。缺失任何一环,用户获得的只能是单次问答;三者协同,才能让对话界面进化为持续服务于个人工作流的数字助理。
10.2 对开发者的启示
这种基于浏览器扩展的增强策略,为在官方能力暂时受限时快速验证产品想法提供了范本。它无需等待后端 API 迭代,以较低工程成本实现“对话即操作”的体验,同时天然支持数据本地化。
10.3 未来趋势
- 扩展成为智能体载体:随着浏览器侧栏、文件系统等 API 成熟,更多 AI 工具将以扩展形式分发,直接在用户最常用的网页上叠加智能能力。
- MCP 推动工具互通:MCP 协议的普及将催生更丰富的工具库,不同插件可共享同一套工具描述,降低适配成本。
- 本地优先与模型下沉:在推理成本持续降低的趋势下,结合本地数据存储和强大开源模型,个人化的离线智能体生态将逐步成型。
如果你日常依赖 DeepSeek 网页版,将 DeepSeek++ 纳入工作流能够明显拓展其能力边界。对技术探索者而言,该扩展的源码也是一份深入理解浏览器智能体架构的样本。