Claude37发布编程能力断层第一

shadowrocket • 2026年1月16日 am8:14 • Shadowrocket官网

就在刚刚，Anthropic再一次深夜放炸，发布它们全新的模型Claude 3.7和首个智能体Claude Code。

先说结论：Claude 3.7更加注重编程能力，其编程能力大幅度领先o1、o3-mini以及Deepseek等顶尖模型，相当于把它们按到地上摩擦一遍又一遍。

在评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集 SWE-bench Verified 上，Claude 3.7领先的可不只一星半点，简直是全面的碾压。

而且在TAU-bench (智能体工具使用基准测试)中，零售 (retail) 和航空 (airline) 两个场景中， Claude 3.7分别取得了 81.2% 和 58.4% 的领先成绩，达到了SOTA。

TAU-bench 是一个测试 AI 代理在复杂现实任子中与用户和工具交互的框架

从Anthropic放出的成绩单不难看出，Claude 3.7此次并没有像其他模型一样，胡乱的刷榜，而是挑选最能体现如何解决现实编程问题的榜单。

这也说明Claude 3.7Sonnet更擅长解决现实问题。

同时在通用benchmark测试中，Claude 3.7 Sonnet 的表现也十分不赖，在指令遵循、推理、多模态能力和代理编码方面表现出色，拳打o1，脚踢o3-mini。

不过Anthropic也是直接承认了：Claude 3.7 Sonnet 的数学能力不如Deepseek。

除了能力得到全方位的提升，此次Claude 3.7还是全球首个“推理混合大模型”，简单来讲，一个模型，两种思考模型，即标准模型和扩展思考模型。

在标准模式下，Claud的3.7是Claude 3.5的升级版，在扩展思考模式下，它会先“自我反思”，然后再输出回答。

这直接让在扩散思考模式下的Claude 3.7的能力再一次升级。同时在模型输出时，可以自由选择Claude 3.7调用哪种模型进行回答。

而且通过API用户还可以控制 “思考预算” ，限制Claude的思考不超过N个token，其中N的值可高达其输出上限128K个token。

换言之，面对较难的推理题，你可以让它思考的时间久一点，这样准确率会得到提升，反之，面对简单的推理题，则可以把推理时间缩短，让它能快速又便宜得解决这道题。

就像下面这样——

除此之外，Anthropic还发布了首个编码工具 Claude Code。

这是一款集成在终端中的代理编码工具，能够理解并操作代码库。只需在命令行输入指令，就能让 AI 智能体完成代码搜索、文件编辑、测试编写和运行、代码提交和推送等一系列复杂的编程任务。

能一次性解决原本需要45分钟到编程任务。

其主要功能包括：

编辑文件并修复代码库中的错误；

解释代码架构和逻辑相关问题；

执行、检查并修复测试、代码规范（linting）和其他命令；

THE END

二维码

Gemini升级DeepResearch功能效果直逼200美金的ChatGPTPro会员

国内使用Claude37sonnet的6种方法

下一篇>>

搜索内容