快斗优选

机器之心报道

编辑：陈萍

一场激动人心的 AI 国际象棋比赛即将开幕。

看够了研究者们天天在论文上刷新基准，是时候拉模型出来遛一遛，性能是不是真如传说中的碾压全场？

太平洋时间 8 月 5 日至 7 日，一场为期 3 天的 AI 国际象棋比赛让人无比期待。

开局第一天，就有 8 款前沿 AI 模型展开对决：

参与比赛的模型包括：

o4-mini（OpenAI）
DeepSeek-R1（DeepSeek）
Kimi K2 Instruct（月之暗面）
o3（OpenAI）
Gemini 2.5 Pro（谷歌）
Claude Opus 4（Anthropic）
Grok 4（xAI）
Gemini 2.5 Flash（谷歌）

直播地址：https://www.youtube.com/watch?v=En_NJJsbuus

这次参赛方都是 AI 界模型顶流（包括两款中国的开源模型），对战双方的性能也旗鼓相当。

组织方还邀请了世界顶级国际象棋专家担任解说，可谓是诚意满满。

这场比赛主要基于Kaggle Game Arena，这是谷歌推出的一个全新的、公开的基准测试平台，在这里，AI 模型可以在策略游戏（如国际象棋和其他游戏中）中展开正面交锋，一决高下。

为了确保透明性，游戏执行框架以及游戏环境本身都将开源。最终排名将采用严格的全员对抗赛制（all-play-all）确定，每对模型进行大量对战来确保统计结果的可靠性。

诺奖得主、Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 激动地表示：「游戏一直是检验 AI 能力的重要试炼场（包括我们在 AlphaGo 和 AlphaZero 上的研究），而如今我们对这个基准测试平台所能推动的进步感到无比兴奋。随着我们不断向 Arena 引入更多游戏与挑战，我们预计 AI 的能力将会快速提升！」

「Kaggle Game Arena ，这个全新的排行榜平台，在这里，AI 系统彼此对战，随着模型能力的提升，比赛难度也将不断升级。」

至于为什么要组织这场比赛，谷歌博客是这么介绍的：当前的 AI 基准测试已难以跟上现代模型的发展速度。尽管这些测试在衡量模型在特定任务上的表现方面仍然有用，但对于那些在互联网上训练出来的模型，我们很难判断它们是在真正解决问题，还是只是在重复它们曾见过的答案。随着模型在某些基准测试上接近 100% 的得分，这些测试在区分模型性能上的作用也逐渐减弱。

因此，在持续发展现有基准测试的同时，研究者们也在不断探索新的模型评估方法。Game Arena 就是在这样的背景下诞生的。

比赛介绍

Game Arena 平台上的每款游戏均设有详情页，用户可查看：

实时更新的比赛对阵表；
动态排行榜数据；
该游戏对应的开源环境代码及测试框架技术文档。

用户还可以实时查看对阵表：

对阵表：https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament

模型在游戏中的表现将在 Kaggle Benchmarks 的排行榜上展示。

赛制说明

本次比赛采用单败淘汰制，每场对决包含四局比赛。先获得两分的模型晋级（胜一局得 1 分，平局各得 0.5 分）。若对局最终打成 2–2 平，将加赛一局决胜负，在这局中，执白方必须获胜才能晋级。

具体赛程安排

8 月 5 日（首日）：8 款模型进行 4 场对决（每场 4 局）
8 月 6 日（次日）：晋级的 4 款模型进行 2 场半决赛
8 月 7 日（决赛日）：终极冠军争夺战

比赛规则

由于当前大模型对文本表达更为擅长，因此该比赛从基于文本输入的方式开始进行比赛。

以下是对执行框架的简要说明：

模型无法使用任何外部工具。例如，它们不能调用 Stockfish 等国际象棋引擎来获得最优走法。
模型不会被告知当前局面下的合法走法列表。
如果模型给出了一步不合法的走法，举办方将给予它最多 3 次重试机会。若在总共 4 次尝试中仍未提交出合法走法，则本局游戏终止，并记为该模型负，对手胜。
每步棋有 60 分钟的超时限制。

在比赛过程中，观众将能够看到每个模型是如何推理自己的走法，以及它们在面对非法走法后的自我纠正过程。

大家都已经迫不及待地想要看比赛结果了。

更多比赛方式请参考：https://www.kaggle.com/game-arena

离首场比赛开始时间还有 14 小时，可以开始期待了。你觉得最终赢家会是哪个模型呢？

谷歌约战，DeepSeek、Kimi都要上，首届大模型对抗赛明天开战

购置税红利倒...

冲着唐嫣去看...

上交大博士自...

纯电续航可达...

今年最流行的...

比亚迪秦 L...

港圈一哥之死，终于揭秘了

不用露脸也能美！跟Lisa学这7个拍照姿势，张张都是大片

伯利入主后切尔西卖人收入7.41亿欧，为同期全球俱乐部第一

田栩宁打脸，内娱待爆帝全白干了？

法国足协官方：强烈谴责女足欧洲杯赛后仇恨言论；将立刻提起诉讼

90后美国男子在中国当15年道士：已拿到中国＂五星卡＂

不变应万变！曼城连续3场首发不变，为瓜帅执教以来第三次

从每天只睡4小时到8小时：一个失眠者的自救指南

泽连斯基新年致辞：不要＂乌克兰的终结＂

罗晋唐嫣婚变进入倒计时！？

阿森纳官方：15岁小将道曼因休假未入选酋长杯大名单

腾势Z7内饰曝光，或将采用Z9同款内饰

特尔：热刺的队友和球迷都很好，我与俱乐部之间有共鸣

生于1998年张媛媛当选“全国重点镇”副镇长

这次，郭麒麟也救不了乱成“一锅粥”的德云社

秋冬别穿阔腿裤了！裙子才是粗腿女孩的救星！

再见了沈腾，再见了贾玲，再见了沙溢！活得好好的已经被大家怀念

LLM把简单任务复杂化，Karpathy无语：有些任务无需那么多思考

澳网公布创纪录奖金池，史上最大奖金提升引发热议

落叶归根，德转：35岁门将石笑天加盟辽宁铁人

极氪科技9月销量51159台连续7个月月销超4万台

今年春夏一定要有“这件衣服”，高级又气质！

夏天尽量少穿一身黑，试试印花裙和露肩上衣，高级又显气质

普京：调解乌克兰危机的基础是消除其成因