快斗优选

随着大模型的发展，大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务，在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而，现有的测试基准主要集中在单智能体或纯文本环境，缺少多智能体、多模态的大模型智能体测试基准，因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench（Visual Strategic Bench）, 以用于评估视觉语言模型（VLM，Vision-Language Model）在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型？因为现实世界就是一个多智能体的环境，这样的环境给大模型的能力提出了新的挑战。

首先，在推理方面，因为多智能体环境的结果依赖于所有智能体的联合动作，所以智能体不仅需要自己能选择合理的动作，还要能够预测其他智能体的动作，即 theory of mind 的推理能力，才能在多智能体环境中取得好的效果。

其次，在决策方面，因为多智能体环境中存在智能体之间的合作和竞争，同时各智能体的策略和行为也在不断变化，使得环境变得非平稳，从而要求智能体要在不确定性更强的环境中优化自己的长期目标，对其决策能力提出了更大的挑战。

（来源：https://arxiv.org/pdf/2506.02387）

基于此，在本次研究之中，研究团队提出了新的测试基准 VS-Bench，以用于评估视觉语言模型在多智能体任务中的推理和决策能力，包含了合作、对抗、混合三种类型的 8 个多智能体环境。研究团队提出了 2 种互补的评估方式，一种是离线的策略推理（strategic reasoning）能力，通过智能体对其他智能体下一步动作的预测准确率来评估；另一种是在线的决策能力（decision-making），通过智能体获得的长期回报来评估。研究团队对包含推理模型、对话模型、开源模型三种共 14 个先进的视觉语言模型进行了测试，有以下主要发现：

图 | 徐泽来（来源：徐泽来）

主要发现之一是：现有大模型具有初步的策略推理能力，但距离准确预测其他智能体的动作还有较大差距。所有 14 个大模型都超过了随机智能体（随机推理），但结果最好的大模型 o4-mini 也只有 47.8% 的综合准确率。整体而言，推理模型最强，而对话模型和开源模型性能接近。

（来源：https://arxiv.org/pdf/2506.02387）

主要发现之二是：现有大模型在多智能体任务中的决策能力很弱。14 个大模型中的 10 个都只得到了和随机智能体相近的综合分数，只有 3 个推理模型明显优于随机智能体，但是性能最好的大模型 o4-mini 也只有 24.3% 的综合得分。

（来源：https://arxiv.org/pdf/2506.02387）

徐泽来指出，在绝大多数任务和环境中，推理模型都显著优于对话模型和开源模型，但是在某些多智能体社会困境的任务中，开源模型性能有显著的提升，甚至超过了部分推理模型。他们通过分析发现，这是因为开源模型虽然单个模型能力较差，但更倾向于合作共赢的行为，从而在这些任务中得到甚至超越推理模型的结果。

具体而言，本次研究的环境中有一个类似囚徒困境的环境，如果各个智能体合作则都能双赢，但智能体可能会为了更大的个人利益而选择背叛，而如果所有智能体都背叛则会陷入双输。研究团队发现推理模型通常更加“理性”，更有可能为了个人利益而选择背叛；而开源模型更倾向于合作，从而让各个智能体都能得到较高的收益。

图 | 本次论文的共同作者徐哲轩（来源：徐哲轩）

图 | 本次论文的共同作者易翔敏（来源：易翔敏）

未来，他们希望该工作能够成为大模型在多智能体任务中的一个测试基准，推动领域内多智能体算法和应用的进步，从而使大模型智能体能被更好地应用在游戏 AI、人机协作等多智能体场景中。

下一步，研究团队计划从几个方向来进一步扩展本次工作：

首先，要进行人类实验。让人类和大模型完成同样的任务，得到平均人类的分数，从而更好地评估大模型现在的能力。

其次，要拓展环境和模型。为此，研究团队计划加入更多不同类型和难度的多智能体环境，并测试更多更新的大模型。

参考资料：

https://arxiv.org/pdf/2506.02387

运营/排版：何晨龙

清华汪玉团队提出VS-Bench测试基准，能评估VLM多项能力

划重点！金融...

学会这10个...

石破茂拒绝辞...

甩掉包袱保...

容情敌生3孩...

宾夕法尼亚大...

蔚来ES9开启预售，电池租用方案预售价42 万元起

佛山超3000人确诊基孔肯雅热 27岁患者：发烧关节疼痛

外观方正硬朗三菱全新SUV预告图曝光

记者：哲凯赖什本赛季预计将取代萨卡成为队内第一点球手

＂坠楼医生＂网暴者院门紧闭挂监控疑家属大骂＂给我滚＂

4年前的今天：字母哥爆砍50分&荣膺FMVP 雄鹿夺队史近50年来首冠

曾毅手表事件休整后首次露面，发布新团队全家福

库尼亚社媒晒照曼联首秀：穿上这件球衣的感觉无以伦比

任正非：中国在技术研究领域的发展步伐不可阻挡

再创历史新高！2025年粮食产量达14298亿斤

与OPPO并肩、以半固态破局：全新MG4的冷静突围

每月抽查5%商家外卖平台“新国标”落地

江苏地方国资入主锡商银行、预计代价近8亿，一年3家民营银行易主

美媒：中国技术突破极限 42条输电线路全都碾压美国

拿到标准合同，Shams：乔丹-古德温成为太阳队第14位正式名单球员

小心，英伟达没安好“芯”！

25岁男子出狱4个月后被胖东来录用：这是我的救命稻草

俄罗斯商品馆＂退潮＂从遍地开花到大规模闭店不到一年

资负统筹，多元发展，中国人寿前三季度新业务价值强劲增长41.8%

巴菲特都被套40%！全球酒类股蒸发8300亿美元，华尔街呼吁抄底

夸梅：吹杨的数据确实亮眼但我宁愿选择费舍尔他总能为队友补位

《以法之名》大结局烂尾！6人被判死刑，2人无期，5人有期

佩特科维奇：萨巴丝袜在女网统治力超群，堪比男子网坛的阿卡辛纳

德约科维奇仅训练12分钟便显露痛苦状态，澳网前景引发担忧

清华汪玉团队提出VS-Bench测试基准，能评估VLM多项能力

划重点！金融...

学会这10个...

石破茂拒绝辞...

甩掉包袱 保...

容情敌生3孩...

宾夕法尼亚大...

蔚来ES9开启预售，电池租用方案预售价42 万元起

佛山超3000人确诊基孔肯雅热 27岁患者：发烧关节疼痛

外观方正硬朗 三菱全新SUV预告图曝光

记者：哲凯赖什本赛季预计将取代萨卡成为队内第一点球手

＂坠楼医生＂网暴者院门紧闭挂监控 疑家属大骂＂给我滚＂

4年前的今天：字母哥爆砍50分&荣膺FMVP 雄鹿夺队史近50年来首冠

曾毅手表事件休整后首次露面，发布新团队全家福

库尼亚社媒晒照曼联首秀：穿上这件球衣的感觉无以伦比

任正非：中国在技术研究领域的发展步伐不可阻挡

再创历史新高！2025年粮食产量达14298亿斤

与OPPO并肩、以半固态破局：全新MG4的冷静突围

每月抽查5%商家 外卖平台“新国标”落地

江苏地方国资入主锡商银行、预计代价近8亿，一年3家民营银行易主

美媒：中国技术突破极限 42条输电线路全都碾压美国

拿到标准合同，Shams：乔丹-古德温成为太阳队第14位正式名单球员

小心，英伟达没安好“芯”！

25岁男子出狱4个月后被胖东来录用：这是我的救命稻草

俄罗斯商品馆＂退潮＂ 从遍地开花到大规模闭店不到一年

资负统筹，多元发展，中国人寿前三季度新业务价值强劲增长41.8%

巴菲特都被套40%！全球酒类股蒸发8300亿美元，华尔街呼吁抄底

夸梅：吹杨的数据确实亮眼 但我宁愿选择费舍尔 他总能为队友补位

《以法之名》大结局烂尾！6人被判死刑，2人无期，5人有期

佩特科维奇：萨巴丝袜在女网统治力超群，堪比男子网坛的阿卡辛纳

德约科维奇仅训练12分钟便显露痛苦状态，澳网前景引发担忧

甩掉包袱保...

外观方正硬朗三菱全新SUV预告图曝光

＂坠楼医生＂网暴者院门紧闭挂监控疑家属大骂＂给我滚＂

每月抽查5%商家外卖平台“新国标”落地

俄罗斯商品馆＂退潮＂从遍地开花到大规模闭店不到一年

夸梅：吹杨的数据确实亮眼但我宁愿选择费舍尔他总能为队友补位