如何看待OpenAI最新发布的o3模型有多强大
说实话,在发布会当天刚刚听到o3的成绩时,真的令人疯狂,太强了,甚至很多人说已经达到了AGI的程度了,但是实际还没有(后面会详细的讲为什么还没有达到AGI)。
o3到底有多强?看看这两个成绩就知道了
在发布会上有一个测试是关于 EpochAI的Frontier数学基准测试,o3的成绩是25.2%,这个成绩有多恐怖呢,可以参考它之前和其他模型的战绩。

Claude 3.5 Sonnet、o1预览版、GPT-4o、Gemini 1.5 Pro准确率都不到2%。
这个测试集是专门为了测试模型数学能力设计出来的,由 Epoch AI 这家非营利研究机构号召 陶哲轩在内的60多位顶尖数学家 提出。 数学大佬陶哲轩甚至评价 ”大模型们,至少需要再战个几年吧”。
从2%到25%的飙升,足以见得o3得有多强了。
第二个测试的成绩,就是很多人认为o3已经达到AGI的水准了。
o3模型在为AGI准备的测试 ARC-AGI 上分数从32%跃升到了75.7%、87.5%。
这个成绩有多牛呢,同样给大家看一下它和其他模型的成绩。

这位测试集设计师在设计时定了一个标准,人类评估的阈值是85分,而 o3 high 的得分,更是飙升到 87.5%,超越了这个阈值,所以很多人认为o3已经达到了AGI。
o3达到AGI了吗?
但是真的达到了AGI时刻吗,这事还真的没有,在发布会结束后,这项测试集的设计者在社交平台上发言:

关于AGI方面的发言如下: 虽然新模型令人印象深刻,是通往 AGI 道路上的一个重要里程碑,但我并不认为这就是 AGI -- 仍然有相当数量非常简单的 ARC-AGI-1 任务是 o3 无法解决的,而且我们有早期迹象表明,ARC-AGI-2 对 o3 来说仍然极具挑战性。这表明,在不涉及专业知识的情况下,创建对人类来说容易但对人工智能来说不可能的不饱和、有趣的基准仍然是可行的。当创建这样的测试变得完全不可能时,我们将拥有 AGI 。 ”
So,o3真的还没有达到AGI时刻,不过却是最接近AGI的大模型。
对于消费者来说,此次发布会真的很值
这里再说一句,有人觉得此次OpenAI举办的发布会不是很成功,但是我觉得从消费者的角度来看非常成功。
大家可以细数一下,这次发布了多少功能(算上还没有上线的,大致是17个)。
完整版 o1 模型、o1 Pro 、ChatGPT Pro 会员、强化微调(Reinforcement Fine-Tuning,RFT)技术、视频生成模型Sora、Canvas 升级、ChatGPT 集成苹果系统、高级语音模式增加视觉能力、新增圣诞老人语言、Projects 功能、多模态 AI 搜索、语音搜索、满血版 o1 API、电话沟通服务、ChatGPT 集成 WhatsApp、Mac 桌面版 ChatGPT 集成多项应用、o3和o3mini模型。
我从未见过哪个发布会一口气发布这么多产品,有些产品我觉得很滥竽充数,但是去掉一些充数的,这次的发布会更新的功能真的多。
重要的是,会费没有变,依旧是20美金一个月,相比之前,是不是划算得多,这一波,OpenAI真很良心,加量不加价。
国内可用GPT的方法
最近身边的很多朋友都因为这次的发布会,而决定去订阅chatgpt会员的,但是他们都没有海外银行卡,都让我充,但是我也没有卡。
我是去wildcard平台申请了一张海外支付卡片从而订阅chatgpt,而且还可以订阅Claude、midjourney、poe等国内外的模型,简直对国内用户不要太友好。
传送门:
https://bewildcard.com/i/AGENT

如果你只是想要尝鲜一下,推荐使用国内的镜像网站2233.ai,推荐它主要的原因就是它有一天使用包,可以先尝鲜,用好了再包月的。
传送门:
https://2233.ai/i/AGENT

虽说此次o3没有达到AGI,但是它远远领先市面上所有的模型,要知道,ChatGPT自成立才过去了多久,就已经这么接近AGI了,不出意外,明天、或许是后年,AGI总将到来!



共有 0 条评论