AI居然学会quot自己训练自己quotDeepSeek这波直接起飞

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

你有没有想过,AI什么时候能真正像人一样思考?

不是那种机械式的问答,而是遇到难题时,能:

🤔

一边琢磨、一边查资料、一边验证答案。

就像你现在看到这篇文章时,可能会打开搜索引擎确认我说的是不是真的。

DeepSeek刚刚做到了。

就在ChatGPT发布三周年这天,DeepSeek一口气扔出两个重磅模型:

DeepSeek-V3.2和DeepSeek-V3.2-Speciale。

前者已经上线官网、APP和API,

后者则是"终极增强版",专攻数学证明和编程竞赛这类超高难度任务。

重点来了!V3.2不仅推理能力直逼GPT-5,还首次实现了"边思考边用工具"。

这意味着——

AI终于可以像人类一样,在解决复杂问题时,

思维和行动不再割裂。

一、先说说V3.2到底有多能打

1.推理能力达到GPT-5水平。

在MMLU-Pro、GPQA Diamond、LiveCodeBench等一系列推理基准测试中,V3.2的表现已经可以和GPT-5、Kimi-k2-thinking媲美。

而且相比Kimi,它的输出更短、响应更快,用户等待时间显著缩短。

2.Agent能力达到开源模型最高水平。

在τ²-Bench测试中,V3.2在航空类别得了63.8分,零售类别81.1分,电信类别96.2分。

要知道,这些任务环境和工具集都没有出现在训练阶段,完全是"裸考"。

这说明什么?

说明V3.2已经具备了把推理策略泛化到陌生场景的能力——这才是真正的智能。

3.首个支持"思考+工具调用"的开源模型。

这是V3.2最大的突破。

以前的DeepSeek模型,进入"深度思考模式"后就不能调用搜索、代码执行等工具了,就像一个人陷入沉思后手就不会动了。

但V3.2不一样,它可以:

🤔

先思考一会儿 → 调用搜索工具 → 看到结果后继续思考 → 再调用代码执行工具 → 验证答案 → 给出最终结论。

就真的像个人一样。

而且历史推理内容会保留,不需要每次调工具后都从头重新思考。

二、有哪些亮点?

1. AI学会"边想边做"了。

这是V3.2最让人眼前一亮的地方。

以前的DeepSeek模型有个尴尬的问题:

进入"思考模式"后就不能调用工具了。

这显然不符合我们解决复杂问题的方式。

现实中我们遇到难题时,往往是边想边查资料,边分析边验证。

DeepSeek团队为工具调用场景设计了一套"思考上下文管理机制"。

核心逻辑是:

🤔

只有在用户发出新消息时,历史推理内容才会被清除。

如果只是追加了工具相关的信息(比如搜索结果、代码执行结果),则保留此前的推理内容,让推理过程可以持续。

官方给了个生动的例子:

规划一个复杂的三天旅行,要满足各种预算约束、评分要求、不重复原则。比如第二天,如果订了豪华酒店(800元以上),那午餐晚餐总费用不能超过350元,餐厅评分都要4.0分以上,下午景点门票要低于120元。如果是中高档酒店(500到800元),至少一家餐厅评分要达到4.0分,景点门票要低于180元。

这种任务需要AI:

反复查询酒店、餐厅、景点信息,同时进行逻辑推理和约束检查。

V3.2通过边搜索边思考,最终给出完美答案。

V3.2的思考模式目前已经支持Claude Code,可以在命令行工具中使用了。

但Cline、RooCode等使用非标准工具调用的组件还不太适配,使用时要注意。

2.最硬核的部分:AI自己训练自己

在提升大模型能力这件事上,DeepSeek走了一条不太一样的路——

不是人类教AI,而是让AI自己训练自己。

他们搭建了一条大规模的Agent任务流水线,创造了超过1800个虚拟环境和8万多条任务。

这些任务有个共同特点:

🤔

难解答,但容易验证。

什么意思?就是题目很复杂,但答案对不对,一查就知道。

这样一来,AI就可以无限制地刷题、改题、复盘,不断强化自己的推理能力。

更硬核的是代码领域。

DeepSeek直接从GitHub上抓取真实的Issue和修复补丁,让Agent搭建测试环境、安装依赖、运行测试用例,确保修bug真的有效、没有引入新问题。

经过这一轮又一轮的自动化淬火,V3.2在SWE-Verified上达到73.1%的解决率,在Terminal Bench 2.0上准确率46.4%,都大幅超越了现有开源模型。

一句话总结:

🤔

DeepSeek把训练过程从"人喂数据"变成了"AI创造数据、验证数据、用数据变强"。

三、Speciale版本:性能怪兽

DeepSeek-V3.2-Speciale是V3.2的终极增强版, 性能直逼Gemini-3.0-Pro。

它的战绩有多炸裂?

2025 IMO(国际数学奥林匹克):金牌

2025 CMO(中国数学奥林匹克):金牌

2025 ICPC世界总决赛:金牌,排名第2(人类选手)

2025 IOI(国际信息学奥林匹克):金牌,排名第10(人类选手)

但Speciale版本有个问题: 思考链长、Token消耗大、成本高。

而且它仅供研究使用,不支持工具调用,也没有针对日常对话和写作做优化。

目前只提供临时API,服务至2025年12月15日截止。

你可以把Speciale理解为:面向AI能力上限探索的实验版本。

四、V3.2还有改进空间吗?

有的。官方很坦诚地承认了几个问题:

1.世界知识广度仍落后于顶级闭源模型。

训练总浮点运算量更少,导致V3.2在知识覆盖面上还有差距。

2. Token效率有待提升。

V3.2往往需要更长的生成路径才能达到和Gemini-3.0-Pro相似的输出质量。

但考虑到这是开源模型,V3.2的表现已经相当炸裂了。

最后说两句

从R1到现在的V3.2,DeepSeek一直在证明一件事:

🤔

开源模型不是闭源的廉价替代品,而是可以真正接近甚至超越闭源模型的存在。

这次V3.2的发布,不仅在推理能力上追平了GPT-5,还实现了"思考+工具调用"的完美融合,同时在世界级竞赛中拿到金牌。

更重要的是,这一切都是开源的。

任何人都可以部署到自己的服务器上,研究它的架构,甚至基于它做二次开发。

AI的未来,可能真的属于开源。

---

技术报告和模型权重已开源:

DeepSeek-V3.2:https://huggingface.co/deepseek-ai/DeepSeek-V3.2

技术报告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END
分享
二维码
< <上一篇
下一篇>>