AI居然学会quot自己训练自己quotDeepSeek这波直接起飞

shadowrocket • 2026年1月6日 am9:23 • Shadowrocket官网

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

你有没有想过，AI什么时候能真正像人一样思考？

不是那种机械式的问答，而是遇到难题时，能：

🤔

一边琢磨、一边查资料、一边验证答案。

就像你现在看到这篇文章时，可能会打开搜索引擎确认我说的是不是真的。

DeepSeek刚刚做到了。

就在ChatGPT发布三周年这天，DeepSeek一口气扔出两个重磅模型：

DeepSeek-V3.2和DeepSeek-V3.2-Speciale。

前者已经上线官网、APP和API，

后者则是"终极增强版"，专攻数学证明和编程竞赛这类超高难度任务。

重点来了！V3.2不仅推理能力直逼GPT-5，还首次实现了"边思考边用工具"。

这意味着——

AI终于可以像人类一样，在解决复杂问题时，

思维和行动不再割裂。

一、先说说V3.2到底有多能打

1.推理能力达到GPT-5水平。

在MMLU-Pro、GPQA Diamond、LiveCodeBench等一系列推理基准测试中，V3.2的表现已经可以和GPT-5、Kimi-k2-thinking媲美。

而且相比Kimi，它的输出更短、响应更快，用户等待时间显著缩短。

2.Agent能力达到开源模型最高水平。

在τ²-Bench测试中，V3.2在航空类别得了63.8分，零售类别81.1分，电信类别96.2分。

要知道，这些任务环境和工具集都没有出现在训练阶段，完全是"裸考"。

这说明什么？

说明V3.2已经具备了把推理策略泛化到陌生场景的能力——这才是真正的智能。

3.首个支持"思考+工具调用"的开源模型。

这是V3.2最大的突破。

以前的DeepSeek模型，进入"深度思考模式"后就不能调用搜索、代码执行等工具了，就像一个人陷入沉思后手就不会动了。

但V3.2不一样，它可以：

🤔

先思考一会儿 → 调用搜索工具 → 看到结果后继续思考 → 再调用代码执行工具 → 验证答案 → 给出最终结论。

就真的像个人一样。

而且历史推理内容会保留，不需要每次调工具后都从头重新思考。

二、有哪些亮点？

1. AI学会"边想边做"了。

这是V3.2最让人眼前一亮的地方。

以前的DeepSeek模型有个尴尬的问题：

进入"思考模式"后就不能调用工具了。

这显然不符合我们解决复杂问题的方式。

现实中我们遇到难题时，往往是边想边查资料，边分析边验证。

DeepSeek团队为工具调用场景设计了一套"思考上下文管理机制"。

核心逻辑是：

🤔

只有在用户发出新消息时，历史推理内容才会被清除。

如果只是追加了工具相关的信息（比如搜索结果、代码执行结果），则保留此前的推理内容，让推理过程可以持续。

官方给了个生动的例子：

规划一个复杂的三天旅行，要满足各种预算约束、评分要求、不重复原则。比如第二天，如果订了豪华酒店（800元以上），那午餐晚餐总费用不能超过350元，餐厅评分都要4.0分以上，下午景点门票要低于120元。如果是中高档酒店（500到800元），至少一家餐厅评分要达到4.0分，景点门票要低于180元。

这种任务需要AI：

反复查询酒店、餐厅、景点信息，同时进行逻辑推理和约束检查。

V3.2通过边搜索边思考，最终给出完美答案。

V3.2的思考模式目前已经支持Claude Code，可以在命令行工具中使用了。

但Cline、RooCode等使用非标准工具调用的组件还不太适配，使用时要注意。

2.最硬核的部分：AI自己训练自己

在提升大模型能力这件事上，DeepSeek走了一条不太一样的路——

不是人类教AI，而是让AI自己训练自己。

他们搭建了一条大规模的Agent任务流水线，创造了超过1800个虚拟环境和8万多条任务。

这些任务有个共同特点：

🤔

难解答，但容易验证。

什么意思？就是题目很复杂，但答案对不对，一查就知道。

这样一来，AI就可以无限制地刷题、改题、复盘，不断强化自己的推理能力。

更硬核的是代码领域。

DeepSeek直接从GitHub上抓取真实的Issue和修复补丁，让Agent搭建测试环境、安装依赖、运行测试用例，确保修bug真的有效、没有引入新问题。

经过这一轮又一轮的自动化淬火，V3.2在SWE-Verified上达到73.1%的解决率，在Terminal Bench 2.0上准确率46.4%，都大幅超越了现有开源模型。

一句话总结：

🤔

DeepSeek把训练过程从"人喂数据"变成了"AI创造数据、验证数据、用数据变强"。

三、Speciale版本：性能怪兽

DeepSeek-V3.2-Speciale是V3.2的终极增强版，性能直逼Gemini-3.0-Pro。

它的战绩有多炸裂？

2025 IMO（国际数学奥林匹克）：金牌

2025 CMO（中国数学奥林匹克）：金牌

2025 ICPC世界总决赛：金牌，排名第2（人类选手）

2025 IOI（国际信息学奥林匹克）：金牌，排名第10（人类选手）

但Speciale版本有个问题：思考链长、Token消耗大、成本高。

而且它仅供研究使用，不支持工具调用，也没有针对日常对话和写作做优化。

目前只提供临时API，服务至2025年12月15日截止。

你可以把Speciale理解为：面向AI能力上限探索的实验版本。

四、V3.2还有改进空间吗？

有的。官方很坦诚地承认了几个问题：

1.世界知识广度仍落后于顶级闭源模型。

训练总浮点运算量更少，导致V3.2在知识覆盖面上还有差距。

2. Token效率有待提升。

V3.2往往需要更长的生成路径才能达到和Gemini-3.0-Pro相似的输出质量。

但考虑到这是开源模型，V3.2的表现已经相当炸裂了。

最后说两句

从R1到现在的V3.2，DeepSeek一直在证明一件事：

🤔

开源模型不是闭源的廉价替代品，而是可以真正接近甚至超越闭源模型的存在。

这次V3.2的发布，不仅在推理能力上追平了GPT-5，还实现了"思考+工具调用"的完美融合，同时在世界级竞赛中拿到金牌。

更重要的是，这一切都是开源的。

任何人都可以部署到自己的服务器上，研究它的架构，甚至基于它做二次开发。

AI的未来，可能真的属于开源。

---

技术报告和模型权重已开源：

DeepSeek-V3.2：https://huggingface.co/deepseek-ai/DeepSeek-V3.2

技术报告：https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END

二维码

我用了近一年Gemini后发现99的人都低估

< <上一篇

最新12个国内免费AI一键生成PPT的网站

下一篇>>

搜索内容

AI居然学会quot自己训练自己quotDeepSeek这波直接起飞

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐