关闭广告

谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战

机器之心Pro2025-08-06 00:00:014163人阅读



机器之心报道

编辑:陈萍

一场激动人心的 AI 国际象棋比赛即将开幕。

看够了研究者们天天在论文上刷新基准,是时候拉模型出来遛一遛,性能是不是真如传说中的碾压全场?

太平洋时间 8 月 5 日至 7 日,一场为期 3 天的 AI 国际象棋比赛让人无比期待。

开局第一天,就有 8 款前沿 AI 模型展开对决:

参与比赛的模型包括:

  • o4-mini(OpenAI)
  • DeepSeek-R1(DeepSeek)
  • Kimi K2 Instruct(月之暗面)
  • o3(OpenAI)
  • Gemini 2.5 Pro(谷歌)
  • Claude Opus 4(Anthropic)
  • Grok 4(xAI)
  • Gemini 2.5 Flash(谷歌)



直播地址:https://www.youtube.com/watch?v=En_NJJsbuus

这次参赛方都是 AI 界模型顶流(包括两款中国的开源模型),对战双方的性能也旗鼓相当。

组织方还邀请了世界顶级国际象棋专家担任解说,可谓是诚意满满。

这场比赛主要基于Kaggle Game Arena,这是谷歌推出的一个全新的、公开的基准测试平台,在这里,AI 模型可以在策略游戏(如国际象棋和其他游戏中)中展开正面交锋,一决高下。

为了确保透明性,游戏执行框架以及游戏环境本身都将开源。最终排名将采用严格的全员对抗赛制(all-play-all)确定,每对模型进行大量对战来确保统计结果的可靠性。

诺奖得主、Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 激动地表示:「游戏一直是检验 AI 能力的重要试炼场(包括我们在 AlphaGo 和 AlphaZero 上的研究),而如今我们对这个基准测试平台所能推动的进步感到无比兴奋。随着我们不断向 Arena 引入更多游戏与挑战,我们预计 AI 的能力将会快速提升! 」

「Kaggle Game Arena ,这个全新的排行榜平台,在这里,AI 系统彼此对战,随着模型能力的提升,比赛难度也将不断升级。 」





至于为什么要组织这场比赛,谷歌博客是这么介绍的:当前的 AI 基准测试已难以跟上现代模型的发展速度。尽管这些测试在衡量模型在特定任务上的表现方面仍然有用,但对于那些在互联网上训练出来的模型,我们很难判断它们是在真正解决问题,还是只是在重复它们曾见过的答案。随着模型在某些基准测试上接近 100% 的得分,这些测试在区分模型性能上的作用也逐渐减弱。

因此,在持续发展现有基准测试的同时,研究者们也在不断探索新的模型评估方法。Game Arena 就是在这样的背景下诞生的。

比赛介绍

Game Arena 平台上的每款游戏均设有详情页,用户可查看:

  • 实时更新的比赛对阵表;
  • 动态排行榜数据;
  • 该游戏对应的开源环境代码及测试框架技术文档。

用户还可以实时查看对阵表:



对阵表:https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament

模型在游戏中的表现将在 Kaggle Benchmarks 的排行榜上展示。

赛制说明

本次比赛采用单败淘汰制,每场对决包含四局比赛。先获得两分的模型晋级(胜一局得 1 分,平局各得 0.5 分)。若对局最终打成 2–2 平,将加赛一局决胜负,在这局中,执白方必须获胜才能晋级。

具体赛程安排

  • 8 月 5 日(首日):8 款模型进行 4 场对决(每场 4 局)
  • 8 月 6 日(次日):晋级的 4 款模型进行 2 场半决赛
  • 8 月 7 日(决赛日):终极冠军争夺战

比赛规则

由于当前大模型对文本表达更为擅长,因此该比赛从基于文本输入的方式开始进行比赛。

以下是对执行框架的简要说明:

  • 模型无法使用任何外部工具。例如,它们不能调用 Stockfish 等国际象棋引擎来获得最优走法。
  • 模型不会被告知当前局面下的合法走法列表。
  • 如果模型给出了一步不合法的走法,举办方将给予它最多 3 次重试机会。若在总共 4 次尝试中仍未提交出合法走法,则本局游戏终止,并记为该模型负,对手胜。
  • 每步棋有 60 分钟的超时限制。

在比赛过程中,观众将能够看到每个模型是如何推理自己的走法,以及它们在面对非法走法后的自我纠正过程。



大家都已经迫不及待地想要看比赛结果了。



更多比赛方式请参考:https://www.kaggle.com/game-arena

离首场比赛开始时间还有 14 小时,可以开始期待了。你觉得最终赢家会是哪个模型呢?



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

邓伦低调现身,深夜独自到超市买菜,复出无望经纪人资源给了新人

萌神木木 浏览 672 07-28

董明珠喊话:不用格力你就是在犯错误;华为将发布AI推理领域突破性成果,或能降低对 HBM 依赖;京东将在智能机器人领域投入超百亿

雷峰网 浏览 3395 08-11

男童与亲爸后妈自驾1千公里坐后备箱 父亲:我对他很好

上观新闻 浏览 2541 07-18

看着像保时捷?宾利首款纯电动车谍照曝光

车质网 浏览 2366 07-23

经销商眼中的宗馥莉:口水仗你们去打,我管好这摊生意

观察者网 浏览 8187 07-22

"大罢免"被"剃光头" 外媒:民进党看开票结果不敢置信

环球时报新闻 浏览 928 07-28

“中国排面”亮相莫斯科 网友拍到动人一幕

环球网资讯 浏览 4064 05-03

妻子抑郁症发作持水果刀将丈夫划伤 丈夫反杀被判无期

红星新闻 浏览 6772 07-21

年内房企高管超50次变动,“营销总”成调整焦点

北京商报 浏览 379 08-11

不到半月又发新品:魔法原子发布MagicDog-W轮式四足机器人

网易科技报道 浏览 7687 07-23

加沙一家庭8人死于以军空袭 亲属:他们做错了什么

北青网-北京青年报 浏览 3671 06-09

"暴走团"群主回应阻碍消防救护车通行:1分钟就过去了

大象新闻 浏览 5430 07-19

微信鸿蒙版1.0.9.16邀测大版本更新:7大升级 朋友圈更好用了

快科技 浏览 9014 07-29

罗斯7年公牛生涯场均19.7分6.2助 斩获最佳新秀&历史最年轻MVP

直播吧 浏览 20 08-22

“大+小”穿法太火了!夏天这样穿时髦又显高

LinkFashion 浏览 5766 06-15

罗德里:我不是梅西,不能一回来就让球队不断赢球

懂球帝 浏览 15 09-01

佩杜拉:科莫有信心在周三之前完成莫拉塔的转会

懂球帝 浏览 1229 08-03

43岁李小璐带甜馨看演唱会,打扮艳丽受争议

晓劗就是我 浏览 7237 07-16

男子在梅里雪山失联20天 女友悬赏寻人:找到活人20万

红星新闻 浏览 9146 08-13

夏天还是穿“连衣裙”好看,裙装的穿搭可以一试,优雅显气质

静儿时尚达人 浏览 118 07-04

谷歌: AI 狼没来,广告一哥稳坐钓鱼台

钛媒体APP 浏览 7354 07-24
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3