AI居然学会quot自己训练自己quotDeepSeek这波直接起飞
你有没有想过,AI什么时候能真正像人一样思考?
不是那种机械式的问答,而是遇到难题时,能:
🤔
一边琢磨、一边查资料、一边验证答案。
就像你现在看到这篇文章时,可能会打开搜索引擎确认我说的是不是真的。
DeepSeek刚刚做到了。
就在ChatGPT发布三周年这天,DeepSeek一口气扔出两个重磅模型:

DeepSeek-V3.2和DeepSeek-V3.2-Speciale。
前者已经上线官网、APP和API,
后者则是"终极增强版",专攻数学证明和编程竞赛这类超高难度任务。
重点来了!V3.2不仅推理能力直逼GPT-5,还首次实现了"边思考边用工具"。
这意味着——
AI终于可以像人类一样,在解决复杂问题时,
思维和行动不再割裂。
一、先说说V3.2到底有多能打
1.推理能力达到GPT-5水平。
在MMLU-Pro、GPQA Diamond、LiveCodeBench等一系列推理基准测试中,V3.2的表现已经可以和GPT-5、Kimi-k2-thinking媲美。
而且相比Kimi,它的输出更短、响应更快,用户等待时间显著缩短。

2.Agent能力达到开源模型最高水平。
在τ²-Bench测试中,V3.2在航空类别得了63.8分,零售类别81.1分,电信类别96.2分。
要知道,这些任务环境和工具集都没有出现在训练阶段,完全是"裸考"。
这说明什么?
说明V3.2已经具备了把推理策略泛化到陌生场景的能力——这才是真正的智能。

3.首个支持"思考+工具调用"的开源模型。
这是V3.2最大的突破。
以前的DeepSeek模型,进入"深度思考模式"后就不能调用搜索、代码执行等工具了,就像一个人陷入沉思后手就不会动了。
但V3.2不一样,它可以:
🤔
先思考一会儿 → 调用搜索工具 → 看到结果后继续思考 → 再调用代码执行工具 → 验证答案 → 给出最终结论。
就真的像个人一样。
而且历史推理内容会保留,不需要每次调工具后都从头重新思考。
二、有哪些亮点?
1. AI学会"边想边做"了。
这是V3.2最让人眼前一亮的地方。
以前的DeepSeek模型有个尴尬的问题:
进入"思考模式"后就不能调用工具了。
这显然不符合我们解决复杂问题的方式。
现实中我们遇到难题时,往往是边想边查资料,边分析边验证。
DeepSeek团队为工具调用场景设计了一套"思考上下文管理机制"。

核心逻辑是:
🤔
只有在用户发出新消息时,历史推理内容才会被清除。
如果只是追加了工具相关的信息(比如搜索结果、代码执行结果),则保留此前的推理内容,让推理过程可以持续。
官方给了个生动的例子:
规划一个复杂的三天旅行,要满足各种预算约束、评分要求、不重复原则。比如第二天,如果订了豪华酒店(800元以上),那午餐晚餐总费用不能超过350元,餐厅评分都要4.0分以上,下午景点门票要低于120元。如果是中高档酒店(500到800元),至少一家餐厅评分要达到4.0分,景点门票要低于180元。
这种任务需要AI:
反复查询酒店、餐厅、景点信息,同时进行逻辑推理和约束检查。
V3.2通过边搜索边思考,最终给出完美答案。
V3.2的思考模式目前已经支持Claude Code,可以在命令行工具中使用了。
但Cline、RooCode等使用非标准工具调用的组件还不太适配,使用时要注意。
2.最硬核的部分:AI自己训练自己
在提升大模型能力这件事上,DeepSeek走了一条不太一样的路——
不是人类教AI,而是让AI自己训练自己。
他们搭建了一条大规模的Agent任务流水线,创造了超过1800个虚拟环境和8万多条任务。
这些任务有个共同特点:
🤔
难解答,但容易验证。
什么意思?就是题目很复杂,但答案对不对,一查就知道。
这样一来,AI就可以无限制地刷题、改题、复盘,不断强化自己的推理能力。
更硬核的是代码领域。
DeepSeek直接从GitHub上抓取真实的Issue和修复补丁,让Agent搭建测试环境、安装依赖、运行测试用例,确保修bug真的有效、没有引入新问题。
经过这一轮又一轮的自动化淬火,V3.2在SWE-Verified上达到73.1%的解决率,在Terminal Bench 2.0上准确率46.4%,都大幅超越了现有开源模型。

一句话总结:
🤔
DeepSeek把训练过程从"人喂数据"变成了"AI创造数据、验证数据、用数据变强"。
三、Speciale版本:性能怪兽
DeepSeek-V3.2-Speciale是V3.2的终极增强版, 性能直逼Gemini-3.0-Pro。
它的战绩有多炸裂?
2025 IMO(国际数学奥林匹克):金牌
2025 CMO(中国数学奥林匹克):金牌
2025 ICPC世界总决赛:金牌,排名第2(人类选手)
2025 IOI(国际信息学奥林匹克):金牌,排名第10(人类选手)

但Speciale版本有个问题: 思考链长、Token消耗大、成本高。
而且它仅供研究使用,不支持工具调用,也没有针对日常对话和写作做优化。
目前只提供临时API,服务至2025年12月15日截止。
你可以把Speciale理解为:面向AI能力上限探索的实验版本。
四、V3.2还有改进空间吗?
有的。官方很坦诚地承认了几个问题:
1.世界知识广度仍落后于顶级闭源模型。
训练总浮点运算量更少,导致V3.2在知识覆盖面上还有差距。
2. Token效率有待提升。
V3.2往往需要更长的生成路径才能达到和Gemini-3.0-Pro相似的输出质量。
但考虑到这是开源模型,V3.2的表现已经相当炸裂了。
最后说两句
从R1到现在的V3.2,DeepSeek一直在证明一件事:
🤔
开源模型不是闭源的廉价替代品,而是可以真正接近甚至超越闭源模型的存在。
这次V3.2的发布,不仅在推理能力上追平了GPT-5,还实现了"思考+工具调用"的完美融合,同时在世界级竞赛中拿到金牌。
更重要的是,这一切都是开源的。
任何人都可以部署到自己的服务器上,研究它的架构,甚至基于它做二次开发。
AI的未来,可能真的属于开源。
---
技术报告和模型权重已开源:
DeepSeek-V3.2:https://huggingface.co/deepseek-ai/DeepSeek-V3.2
技术报告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf



共有 0 条评论