关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:026220人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。


事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。


如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

机器人商用拐点要来了?智元邓泰华:下一代海量智能终端是它

南方都市报 浏览 87 08-22

售24.98万起 2025款理想L系列智能焕新版上市

网易汽车 浏览 2539 05-10

近54亿美元!瑞士巨头ABB把机器人业务卖给了沉迷超级AI的孙正义

澎湃新闻 浏览 51 10-09

外卖大战降温,专家吁多管齐下破内卷

澎湃新闻 浏览 8658 08-10

男子花3万多网购2400克银条空欢喜 付款次日店铺清空

红星新闻 浏览 22 01-02

第三届鸟巢数字体验节启幕:机器人嘉年华打造未来生活新场景

环球网资讯 浏览 68 10-26

黄宗泽哭着拿双料视帝,10次提名终于熬出头

手工制作阿歼 浏览 23 01-06

队报:多纳鲁马对巴黎的续约条件不满意,俱乐部已做好离队的应对

直播吧 浏览 6122 07-25

张朝阳:AI让人人成为“知道分子”,但我们仍需思考丨2025世界互联网大会

红星资本局 浏览 41 11-09

东吴证券,找到了黄金赛道

券商中国 浏览 6553 07-25

俄乌超百万规模的兵力集结 普京下令推进中方紧急预警

掌青说历史 浏览 8890 07-17

王岳伦拟注销女儿王诗龄名字相关的品牌管理公司,多年0人参加社保

红星资本局 浏览 745 08-10

奉子成婚?45岁董璇闪婚一个月后,自爆想要二胎

阿览 浏览 7559 08-12

美国突袭委未寻求国会批准 鲁比奥辩解:并非入侵行动

环球网资讯 浏览 22 01-06

保时捷中国自建充电网络将关停,回应:重新调整资源 前三季度利润下跌99%

红星资本局 浏览 24 12-23

记者:虽在与埃弗顿谈判,但马利克-福法纳想在新赛季踢欧冠

懂球帝 浏览 3709 07-27

于正破防删评论,前脚刚立完人设后脚便被打脸,他的话信不了一点

芊手若 浏览 3708 07-22

台湾女子在柬7天被轮奸9次 被大陆解救后反抹黑大陆

公子麦少 浏览 6615 08-19

意媒:恰尔汗奥卢基本上确定留在国米,在齐沃手下将扮演新的角色

直播吧 浏览 5826 08-10

赵磊:一个把粉丝当ATM,最后和私生锁死的男人

八卦三缺一 浏览 61 10-17

英诺赛科、联合电子、纳芯微牵手,布局新能源汽车功率电子

IT之家 浏览 74 10-02
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3