Claude37发布编程能力断层第一

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

就在刚刚,Anthropic再一次深夜放炸,发布它们全新的模型Claude 3.7和首个智能体Claude Code。

先说结论:Claude 3.7更加注重编程能力,其编程能力大幅度领先o1、o3-mini以及Deepseek等顶尖模型,相当于把它们按到地上摩擦一遍又一遍。

在评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集 SWE-bench Verified 上,Claude 3.7领先的可不只一星半点,简直是全面的碾压。

而且在TAU-bench (智能体工具使用基准测试)中,零售 (retail) 和 航空 (airline) 两个场景中, Claude 3.7分别取得了 81.2% 和 58.4% 的领先成绩,达到了SOTA。

TAU-bench 是一个测试 AI 代理在复杂现实任子中与用户和工具交互的框架

从Anthropic放出的成绩单不难看出,Claude 3.7此次并没有像其他模型一样,胡乱的刷榜,而是挑选最能体现如何解决现实编程问题的榜单。

这也说明Claude 3.7Sonnet更擅长解决现实问题。

同时在通用benchmark测试中,Claude 3.7 Sonnet 的表现也十分不赖,在指令遵循、推理、多模态能力和代理编码方面表现出色,拳打o1,脚踢o3-mini。

不过Anthropic也是直接承认了:Claude 3.7 Sonnet 的数学能力不如Deepseek。

除了能力得到全方位的提升,此次Claude 3.7还是全球首个“推理混合大模型”,简单来讲,一个模型,两种思考模型,即标准模型和扩展思考模型。

在标准模式下,Claud的3.7是Claude 3.5的升级版, 在扩展思考模式下,它会先“自我反思”,然后再输出回答。

这直接让在扩散思考模式下的Claude 3.7的能力再一次升级。 同时在模型输出时,可以自由选择Claude 3.7调用哪种模型进行回答。

而且通过API用户还可以控制 “思考预算” ,限制Claude的思考不超过N个token,其中N的值可高达其输出上限128K个token。

换言之,面对较难的推理题,你可以让它思考的时间久一点,这样准确率会得到提升,反之,面对简单的推理题,则可以把推理时间缩短,让它能快速又便宜得解决这道题。

就像下面这样——

除此之外,Anthropic还发布了首个编码工具 Claude Code。

这是一款集成在终端中的代理编码工具,能够理解并操作代码库。 只需在命令行输入指令,就能让 AI 智能体完成代码搜索、文件编辑、测试编写和运行、代码提交和推送等一系列复杂的编程任务。

能一次性解决原本需要45分钟到编程任务。

其主要功能包括:

编辑文件并修复代码库中的错误;

解释代码架构和逻辑相关问题;

执行、检查并修复测试、代码规范(linting)和其他命令;

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END
分享
二维码
< <上一篇
下一篇>>