关闭广告

OpenAI夺金IOI,但输给3位中国高中生

量子位2025-08-12 12:00:015339人阅读

西风 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,OpenAI官宣:IOI金牌收入囊中

其推理模型在今年IOI线上竞赛中成绩刷新纪录:

总分533.29,在全球330名人类选手中总排名位列第六;而在所有AI参赛者中,稳居第一

PS:AI没比过的五个人里,有三个都是咱中国人,分别是刘恒熙(宁波市镇海中学)、范斯喆(浙江省诸暨市海亮高级中学)、陈昕阳(杭州第二中学)。



有意思的是,OpenAI表示,这次并未为IOI训练新的参赛模型,而是集成了多个通用推理模型参赛。

并且这个夺金系统和前不久OpenAI自称在IMO中夺金的,还是同一个。



从成绩上来说,此AI推理系统相比去年模型在IOI上的表现进步了不止一点半点。

IOI 2024 OpenAI还专门在o1基础上进行针对性训练,最终得到的o1-ioi,在严格的比赛规则下仅拿到213分

今年靠通用模型直接夺金,排名大跃升,网友直呼震撼。



不过,前段时间OpenAI自称模型拿下IMO金牌一事引发不少争议,这次面对IOI的成绩,网友们明显谨慎了许多:

  • 到底是真的很了不起的成就,还是又一个营销噱头……



与此同时,还有不少网友喊话“还我4o”。



更有意思的是,马斯克突然发布了IOI Benchmark排名,结果显示Grok 4在编码方面超越GPT-5获得第一(doge)。



来看这次OpenAI推理系统夺金细节。

和人类一样,5小时、50次限制

IOI(国际信息学奥林匹克竞赛)作为是全球中学生计算机科学领域的最高级别赛事,有着严苛且标准化的赛制:

参赛学生需历经2天赛程,每天在5小时内独立解决3道高难度算法题,全程断网且无法借助外部资料,最终提交C++代码方案,由隐藏测试用例自动评分。

IOI 2025总共有来自84个国家的330名参赛者参赛。满分600分,金牌分数线是438.30分,最终只有28名参赛者获得金牌

OpenAI表示他们正式参加了IOI的线上AI赛道,规则和人类参赛者一样,有5小时的时间限制50次的提交次数限制



并且AI系统在竞赛过程中全程未使用互联网或检索增强生成(RAG)技术,仅能使用基础的终端工具。

具体来说,他们整合了几个强大的推理模型,生成候选程序,运行这些程序,然后提交最优解。唯一的辅助工作是:挑选要提交的尝试内容,并与竞赛API交互。

在IOI线上AI赛道中,通过API获取题目并提交解答,不会接受竞赛组织者的直接监督。



OpenAI最新AI推理系统的表现超越98%的参赛者,不论是成绩还是方法上都和去年形成鲜明对比。

在IOI 2024中,OpenAI使用了o1-ioi模型,这是一个在o1基础上针对编程任务进行强化学习微调的专用模型。

o1-ioi严重依赖一套复杂且由人工设计的test-time推理策略(类似AlphaCode的人工设计的test-time推理策略),包括:

  • 为每个子任务生成10000个候选解
  • 基于模型自生成的测试用例对解法进行聚类和排序
  • 结合学习到的评分函数来筛选最终提交的50个方案

尽管投入了大量工程技巧,o1-ioi在IOI 2024中仅获得213分,排名第49百分位,与铜牌失之交臂。

One More Thing

谢赛宁团队前段时间推出了一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的实时基准测试——LiveCodeBench Pro。

GPT-5最新测试成绩出炉:

  • GPT-5 Thinking在2025年第一季度的测试组中完成了突破,是唯一一个解出难题分组的模型,而且这还不是更高级的“Thinking Pro”版本。



平均响应长度方面,GPT-5超过10万token,是o3的3倍。




[1]https://x.com/OpenAI/status/1954969035713687975
[2]https://x.com/rohanpaul_ai/status/1954992741101998099
[3]https://x.com/wenhaocha1/status/1954751124050989213
[4]https://x.com/elonmusk/status/1955047197487272362

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

欧文:KD跟腱断裂后我等了他一年半 不知道你们还有谁会这么做

直播吧 浏览 1716 07-24

为了消灭电池爆炸,车企得做多少“傻事”?

21世纪经济报道 浏览 4476 07-06

小米智能门铃 4 / Pro 发布:超清双摄 + 米家联动,售 299 元起

IT之家 浏览 8027 07-18

斯洛特:我父亲永远不会派上球员斯洛特 我17岁就替父亲临时执教了

直播吧 浏览 29 09-26

英媒:热刺主帅想要加拉格尔,为去世界杯球员需要稳定的出场次数

直播吧 浏览 8205 07-22

湖记:约基奇字母都是不切实际交易目标 他们想来我们也出不起价

直播吧 浏览 2508 08-14

张维伊董璇婚宴饭店曝光,疑均价曝光引热议,人均67元被指太低

扒虾侃娱 浏览 43 08-25

纳指收跌0.39%,英伟达跌超2%

中新经纬 浏览 2150 07-23

本轮巴以冲突已致加沙地带58479人死亡

环球网资讯 浏览 9097 07-16

泳联世锦赛奖金:覃海洋收获52143美元,位列中国选手之首

懂球帝 浏览 5923 08-04

提供两种动力可选 捷途X70L实车曝光

车质网 浏览 3182 07-24

XPPen 推出 Artist Ultra 16 触控手绘屏:UHD AMOLED,16K 压感

IT之家 浏览 32 09-29

全球最大鱼子酱生产商或赴港IPO!承包全球1/3产量

财通社 浏览 7379 08-12

章子怡大侄女迎19岁生日,哥嫂全家出镜庆祝

八怪娱 浏览 6623 07-11

工博会上的高校“显眼包”:580项科创成果等你来打卡

上观新闻 浏览 13 09-25

妈妈辈如何穿出“贵气感”?4个打扮习惯,轻松提升优雅气质

静儿时尚达人 浏览 13 10-10

杭州高架理想MEGA起火,车主:理想救我一命 高管:感谢认可事故正了解中

红星资本局 浏览 9695 08-07

小鹏G7增程版登陆工信部 助推大电池增程新景象

网易汽车 浏览 25 09-12

F1匈牙利站正赛:诺里斯夺冠 拉塞尔第3 乐扣杆位发车第4带回

直播吧 浏览 9618 08-04

伊朗公布新型弹道导弹 "萨德"无法拦截

澎湃新闻 浏览 2842 05-05

3500万镑后防多面手,电讯报:切尔西签哈托主要为缓解库库的压力

直播吧 浏览 5510 07-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3