关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:026278人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。


事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。


如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

曾是百度第二大广告代理商,开创集团上半年净利润腰斩,称受市场需求变化影响

红星资本局 浏览 176 08-25

胜利就是最佳礼物,B费:为曼联出战300场最好的庆祝方式

懂球帝 浏览 63 10-27

官宣!vivo首款MR头显vivo Vision将于8月21日发布

网易科技报道 浏览 7767 08-13

伊朗:三处遭袭核设施未发现污染迹象

界面新闻 浏览 2476 06-23

同样是王中磊的孩子,王文也和王元差距大?

新语爱八卦 浏览 6252 07-25

全球首台!浙大“悟空”出世

文汇报 浏览 3553 08-06

读懂IPO|道生天合对两大客户交易额直降,穿透后现隐秘股权关系网

时代周报 浏览 2277 08-14

天空体育:拉什福德租借加盟巴萨对各方都好;球员是最大赢家

懂球帝 浏览 1940 07-23

抵达意大利,拉斯帕多里:很高兴能回来,我很激动且充满动力

懂球帝 浏览 97 01-15

上海海港三场亚冠比赛仅拿1分,进1球丢6球

懂球帝 浏览 64 10-22

苹果与三星合作在美生产新一代芯片 用于iPhone等产品

环球网资讯 浏览 6881 08-07

广东惜败巴西!杨溢王浩然大爆发,王少杰顶内线,徐昕杜锋争执!

篮球资讯达人 浏览 3805 07-29

赵丽颖玩大了!《小城大事》预告信息量炸裂,不愧是争剧王的大剧

娱乐圈笔娱君 浏览 84 01-06

全国人大代表梁伟:用AI打通中国芯片弯道超车的 “任督二脉” | 代表在这里

封面新闻 浏览 43 03-11

问界M7全新黑白车色官图发布,提供黑曜套件选配

皆电 浏览 10036 08-06

门票30万!高端纯电大三排SUV迎来大决战|汽车观察

封面新闻 浏览 157 08-22

下半年,工业稳增长如何部署?

第一财经资讯 浏览 856 07-21

全球经济,有了大麻烦

米筐投资 浏览 5848 07-21

于文文贵州演唱会晕倒,曝被救护车拉走

扒虾侃娱 浏览 79 02-02

Vogue这一夜太抓马了

细语 浏览 123 10-24

21岁女生患白血病寻亲 有人主动认亲后表示年份不符

潇湘晨报 浏览 82 01-28
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3