关闭广告

4比0横扫Grok 4,o3强势夺冠,首届大模型对抗赛结果出炉

机器之心Pro2025-08-09 12:00:025123人阅读

机器之心报道

编辑:杜伟

GPT-5 问世的同时,o3 也在最后一战中封王了。

备受 AI 圈关注的首届谷歌 Kaggle AI Chess 大赛(也即大模型国际象棋对抗赛)迎来了最终赢家。

就在昨天,Grok 4 携手 OpenAI o3 进入了决赛。在机器之心的投票中,大家更倾向于 o3 战胜 Grok 4。



决赛结果如大家预期的一样,o3 以 4-0 横扫 Grok 4 夺得冠军

另外,在季军争夺战中,Gemini 2.5 Pro 以 3.5-0.5(三胜一和)强势击败了 o4-mini

下图为整个赛事所有选手的对阵表以及冠亚季军得主。



评论区很有意思,「Grok 4 很强,直到它遇上了 o3。」



随着今晨 GPT-5 的发布,大家很好奇它会有怎样的表现呢。



冠亚军争夺

o3 横扫 Grok 4

一直到半决赛,Grok 4 的势头都很猛,被认为是夺冠热门。就连马斯克都「装」了起来,称 Grok 4 玩国际象棋大材小用,它本身就没有针对象棋游戏进行优化。

尽管此前偶有不灵光的地方,但 xAI 的这款大模型始终展现出了碾压级别的棋力。比赛中,Grok 4 落子时近乎冷漠的风格,更让这个招招致命的「机械野兽」看起来不可战胜。

然而,Grok 4 的神话在决赛中轰然崩塌,以 0-4 完败于喋喋不休(chatty)的 o3。

当天,Grok 4 的棋风与往日「判若两人」,频频出现低级失误,而 o3 几乎全程保持冷酷的处刑姿态。

首局较量中,Grok 4 在开局阶段就毫无缘由地白丢了一象。少子劣势下,Grok 4 竟主动寻求兑子,这显然违反了所有棋类典籍中「劣势方应避免简化局面」的黄金法则。

随着接下来的连续失误,Grok 4 被 o3 干净利落地将死。首局失利



第二局上演了西西里防御的「毒兵变例」,这是国际象棋中一种极具攻击性与风险性的开局变例,属于西西里防御的分支,常见于纳依多夫变例中。其核心是黑方故意吃掉白方看似「无保护」的 b2 或 a2 兵(实际是陷阱),从而引发激烈的战术对抗。

如果说 b2 兵对人类棋手是剧毒之物,那么 a2 兵对人工智能而言简直是致命病毒。比赛中,黑棋竟走出 12...Qxa2??,无视白方 c3 马的守护贸然吃兵。此后o3 轻松赢得第二局的胜利

而到了 Grok 4 执白的第三局,本赛事首次出现 AI 采用西西里防御的马罗兹结构。凭借稳健的盘面,Grok 4 似乎要重拾王者风范。难道前两局的溃败只是戏耍对手吗?显然不是。

当白棋走出 11.Nd5?? 并白送一马时,所有幻想随之破灭。紧接着 Grok 4 又接连葬送皇后、车象易位权,最终在第三局满盘皆输

到了决胜局,两个大模型贡献出了系列赛最胶着的一战,甚至一度轮到 o3 自毁长城,它早早因失误白送皇后,局面陷入到了绝境。

但正如解说嘉宾、国际象棋大师中村光所指出的,盘面仍暗藏玄机。此后,o3 触底反弹,与先前的致命失误形成鲜明对比,凭借精妙战术夺回后手。

比赛最终演变为 o3 多一兵的残局,理论上仍可成和。不过,正如此前 Grok 4 手握车兵却无法完成将死所暴露的缺陷,它在残局阶段显然存在致命短板。

相反,o3 展现出更精准的终盘理解力,步步为营完成升变,最终以教科书般的将杀为这场对决画上句号。



随着第四局的胜出,o3 成为首届大模型国际象棋对抗赛的冠军,Grok 4 只能屈居亚军。

Gemini 2.5 Pro 摘得季军

谷歌总算「没白来」

季军争夺战在谷歌 Gemini 2.5 Pro 与 OpenAI o4-mini 之间展开,虽然不像决赛结果那样悬殊,却也难称得上称势均力敌。凭借三胜一和的战绩,Gemini 最终摘得铜牌。

不过,Gemini 的统治级表现背后,是全程混乱不堪的对局质量,与冠军 o3 行云流水的棋风相差甚远。首局,Gemini 还能够组织起像样的攻势,让人误以为这个 AI「胸有成竹」。

然而,第三局的平局才真正暴露出这场季军战的本质 ——双方几乎都在梦游,整场对局充斥着业余级的失误

这局棋的胜率曲线如同过山车般剧烈波动,双方频频「互送大礼」,连最简单的胜势都无法把握。



完整对局形势如下所示。尽管这场充满争议的平局暴露出了 Gemini 的不足,但它的整体表现已足够亮眼。

最终,凭借另外三局的胜利,Gemini 2.5 Pro 成功锁定季军席位,不至于让谷歌这个赛事主办方颗粒无收。未来,人们更期待看到谷歌如何利用此次赛事数据来优化其 AI 系统。

原文链接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-3

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

此前涂黑泰达队徽!荣昊社媒道歉:对于涂黑队徽我深表歉意

直播吧 浏览 9266 07-21

“双引擎”再提速:中国资本市场改革释放创新红利

财经众议院 浏览 132 11-11

25年前与普京合影的湖南小伙:在俄留学7年 希望再同框

三湘都市报 浏览 9768 08-13

硅谷高管消息群一夜未停 H-1B新规让美企慌了白宫找补

红星新闻 浏览 218 09-22

AI大战打到太空!前脚H100入轨,TPU后脚上天,中国玩家笑而不语

量子位 浏览 124 11-05

电影《捕风追影》中的6个严谨细节狠狠地抽了各种“神剧”的脸

娱乐圈笔娱君 浏览 178 08-22

2025年最烂大街的6套穿搭!看看你踩雷了吗?

Yuki女人故事 浏览 8515 07-27

“晚上11点还有人看车!”乐道L90爆了,3天交付近2000台

红星资本局 浏览 5169 08-06

有点慢!世锦赛男子200米仰泳预赛:禹景铭排名第34止步预赛

直播吧 浏览 8320 07-31

夏天穿衣不需要太花哨,黑色单品也可以穿出高级感,显瘦舒适

静儿时尚达人 浏览 9192 06-25

记者:洛杉矶与热刺就孙兴慜达成协议,费用1500万-2000万镑

懂球帝 浏览 6150 08-04

媒体人:玉昆接近签约前浙江队主帅乔迪,还相中一名巴西前腰

懂球帝 浏览 47 11-25

俄核动力导弹即将试射 欧盟紧急视频会议讨论俄乌局势

每日经济新闻 浏览 2383 08-13

"淘宝第一个程序员"离职:在阿里任职25年 成亿万富豪

红星新闻 浏览 1672 08-14

特朗普被指曾私下鼓动泽连斯基打击莫斯科 白宫回应

环球网资讯 浏览 3793 07-16

1.78万亿宁德时代牵手“张雪”,造出电摩给谁骑?

野马财经 浏览 29 04-10

千万富翁王晓举寻亲成功,妻子举动让人泪目

史行途 浏览 148 09-22

53岁逐渐“消失”的孟非,走到这步怪不了别人

草莓解说体育 浏览 125 09-23

突发!特斯拉美国要求禁用中国产零部件;离谱!曝多益网络创始人有300个孩子,公司回应;苹果CEO库克被曝或于明年卸任丨雷峰早报

雷峰网 浏览 131 11-17

推广中奖名单-更新至2025年5月19日推广

黎贝卡的异想世界 浏览 5914 06-07

男子将百万房车不上锁异地停放 已有人开走带全家旅游

极目新闻 浏览 197 09-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3