快斗优选

新智元报道

编辑：编辑部

【新智元导读】OpenAI的神秘通用推理模型，竟然攻克IMO 2025的5道难题，成功摘金了？这个消息，让Greg Brockman等一众大佬激动转发。也就是说，OpenAI很可能已经研发出颠覆性的推理技术，彻底告别CoT。还有一个炸裂消息：GPT-5也要来了。

就在昨天，

然而，就在刚刚，OpenAI 投下了一枚重磅炸弹——他们用一款全新的「通用推理模型」，成功夺下了IMO 2025的金牌！

6道题，解出5道，狂揽35分！

要知道，此前表现最好的Gemini 2.5 Pro，也只得了13分。

联创Greg Brockman、负责人Alexander Wei，以及OpenAI的各路研究员，纷纷在推上激动宣布了这一里程碑式的成就！

对此，德扑之父Noam Brown表示，这个成绩的意义甚至超越了「AI攻克IMO」本身。

左右滑动查看

消息一出，整个硅谷为之沸腾！

人们纷纷猜测，OpenAI这次很可能祭出了一种颠覆性的推理技术，彻底告别了传统的CoT思维链。

这，不仅仅是一个模型的胜利，更是一个全新时代的开端！

更令人震惊的是，OpenAI宣布，这个创造了历史的模型，并非传闻中的GPT-5，而是一个全新的、实验性的模型！

而这个模型完全不会被发布，简直太神秘了！

神秘模型，拿下IMO金牌

Alexander Wei和他的团队，让模型在与人类完全相同的条件下进行比赛：

两个4.5小时的考试时段，没有工具，没有网络，仅凭对题目的理解，用自然语言写下完整的证明过程。

然后，由三位前IMO奖牌得主严格评分。

最终，模型以35/42的惊人高分，达到了金牌的水平。

相比之下，无论是在围棋、Dota还是其他复杂任务，过去的AI想要获得胜利，往往都要在特定领域进行专门的训练。

但这一次，OpenAI打破了这条铁律——新模型不仅不是IMO「特供」，而且还能进行长达数小时的思考。

相比之下，我们熟知的o1模型是以秒计算，Deep Research也不过是以分钟计算。

这种深度的、持久的创造性思维能力，正是以往AI难以逾越的天堑！

这意味着什么？是否达到了AGI水平？拿下IMO有何特殊？

首先，与以往的基准相比，IMO问题需要更高水平的持续创造性思维。

在推理时间范围方面，现在已经一路攀升：GSM8K（顶级人类约需0.1分钟）→MATH基准（约1分钟）→AIME（约10分钟）→IMO（约100分钟）。

其次，IMO的提交内容是难以验证的多页证明。

在此领域取得进展需要超越具有明确、可验证奖励的强化学习范式。

通过这样做，OpenAI研究团队获得了一个能够在人类数学家层面构建复杂且无懈可击论点的模型。

此外该模型并非通过在「特定任务（IMO）」训练达到这一能力水平，而是在通用强化学习和测试时计算扩展方面实现了新的突破。

所以，昨晚被曝光的o3-alpha，难道只是前戏？

原来，这才是OpenAI真正憋着的大招！

完整解题过程

如果你有兴趣，可以看看OpenAI新鲜放出的2025年IMO赛题解答。

模型解出了第一题到第五题（P1-P5），但没能解出第六题（P6）。果然如传闻所说，这次的第六题难度极高，全球仅有6人破解。

仓库地址：https://github.com/aw31/openai-imo-2025-proofs/blob/main/README.md

下面我们来看看，这个新模型对于前五道题的具体解题过程。

第一题，是一道解析几何题。

可以看出，解答这道题的关键点，就是要找出覆盖点的n条线，以及阳光线的可能数量。

模型采用了独特的方法，确定了所有满足条件的非负整数k。

引理：当n≥4时，任何覆盖P_n的n条直线必须使用三角形的一条边。

对n=3的情况进行精确分析。

对于一般的n≥3，证明对于每个n存在k=0、1、3的配置。

利用归约引理完成主要结论的证明。

第二道题，是一道平面几何题。

示意图如下。

大神网友放出的解答中，想要直接证明过点H且平行于AP的直线与三角形BER的外接圆相切，是很困难的。

不过，这个问题可以换成另一种表述：定义X为不包含B的一侧的EF的中点，如果能够证明HX与EF平行，基本上就可以证明这个结论了。

另一方面，如果这条线的切线，那么它必须在中点处接触圆。

因此，只要证明这两点就足够了。

而模型在证明过程中，主要完成了以下四步：

解析设定和参数。设P为三角形ACD的外心。连接AP与两个圆Ω、Γ的交点分别为点E、F。求过点B、E、F的外接圆方程。

第三道题，是一道函数题。

在人类选手的解法中，这道题的关键是证明下图中黄色的不等式。

模型对于这道题的解法，分为以下四步。

考虑bonza类型的函数，即满足性质P_f的函数。

当函数在某个素数处取值大于1时，考虑模素数意义下的同余关系。

推论：如果某个奇素数p满足f>1，那么整个函数f必须是恒等函数。

进入主要的结构性引理：分析在非恒等函数的情况下，函数的结构。

第四道题，是一道数论问题。

它的解题关键步骤可以化为如下形式。

模型在解答过程中，也采用了类似思路。

第五道题，考察的是博弈论。

这道题的解法，包含以下三部分。

模型在解题过程中，则是讨论了以下三种情况。

当 λ ≥ c（无防御）时，Alice总是获胜。

当 λ > c 时，Alice获胜。

当 λ < c（c = 1/√2）时，Bazza获胜。

第六道题，涉及到了图形的组合数学。

这道公认的难题，人类参赛者也只有6人可以做出，o3、o4-mini、Gemini 2.5 Pro、Grok-4、DeepSeek-R1六个大模型也全员零分，即使是OpenAI的这个超强模型，也同样折戟了。

目前看来，世界上还不存在能解出第六题的大模型。

一个彩蛋

Alexander Wei宣布这个消息时，使用了「草莓」的形象。

「Strawberry」是OpenAI当初在内部研发时使用的代号，用于推动一项全新的推理模型项目，就是我们现在熟悉的「o」系列模型。

作者介绍

Alex Wei是OpenAI的研究科学家，主要研究方向为大语言模型和推理。之前也曾研究过机器学习、博弈论和算法的交叉领域。

他在加州大学伯克利分校获得计算机科学博士学位，师从Nika Haghtalab、Michael I. Jordan和Jacob Steinhardt；在哈佛大学获得学士学位和硕士学位，师从 Jelani Nelson 和 Scott Kominers。

他曾是FAIR团队的一员，参与构建了首个在《外交》（Diplomacy）游戏中达到人类水平的人工智能——CICERO。该成果在2022年发表于《科学》杂志。

参考资料：

https://x.com/alexwei_/status/1946477742855532918

刚刚，OpenAI神秘新模型斩获IMO 2025金牌！攻克奥数巅峰，硅谷沸腾

外观设计微调...

美媒：特朗普...

加沙＂空投箱...

日本汽车业面...

能否破荒？浙...

正好杜兰特3...

“消失”半年，一回归还是顶流，张颂文的新身份，再让人刮目相看

19岁女孩当＂台球美女助教＂月入过万被客人开黄色玩笑

拟购半导体资产英唐智控继续转型

媒体人：王奕博转会需俱乐部、体育局双盖章，不排除新赛季无球可打

王励勤出任乒羽中心副主任

首席炒黄金期货大赚14亿？国海证券前固收首席靳毅辟谣称已报警

四川银行“收购”长城华西银行，何为最优解？

A股周末调整，下周怎么走？

郑钦文因肘伤退出WTA1000蒙特利尔站，张帅和王雅繁进入资格赛

商竣程因伤退出美网比赛，父亲商毅晒出伤脚淤青明显

十年捐赠1000万冰球运动专项基金，飞鹤助力“冰球之城”人才建设

A股2025年分红额创历史新高分红次数居前上市公司名单一览

世界人工智能大会落幕，预计达成意向采购金额超160亿元

4年2.29亿提前续约！福克斯致谢马刺：很荣幸迫不及待去共创未来

牛弹琴：特朗普捅破大秘密＂赢麻了＂的印度又要气炸了

体育生表演＂男美人鱼＂走红：行业男性较少月薪近万元

成本超4.5亿，9小时票房仅649万，收手吧古天乐

我国科学家证实镧镍氧体系材料的高温超导特性

超40家信用卡分中心年内消失，信用卡业务格局重塑？

纯进口SUV，标配全时四驱+2.5L水平对置，媲美普拉多，仅售24万多

43岁的李小璐怀二胎了？这一次没人能救得了她

膝盖受伤！媒体人：李月汝拍了片子队医预计至少需要休息6周

报道：哈塞特势头不稳，特朗普一些亲信推举沃什当美联储主席

具身智能，为何成为智驾公司的下一个战场？