关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:026154人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。


事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。


如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

卡马乔:穆里尼奥过去是、现在也是一位顶级教练

懂球帝 浏览 14 08-22

货拉拉为什么不请这帮人代言

星球商业评论 浏览 5990 08-19

小鹏G7上市 能帮助小鹏站稳中高端走量的市场吗?

正在说车 浏览 2428 07-05

热那亚女足新援引爆网络,球迷盛赞:现役最美、足坛最性感球员

直播吧 浏览 5103 07-25

影像的妖艳迷宫,大卫林奇伟大经典一次看爽

幕味儿 浏览 14 09-01

无人驾驶“飞的”如何保障安全?这家广州企业给出首创方案

南方都市报 浏览 8880 07-18

无缘美网?郑钦文恢复期需近一个月!

网球之家 浏览 9795 07-21

网约车加收3元空调费 司机为啥“没苦硬吃”?

网约车观察室 浏览 3078 07-21

2025:“税年”

智本社 浏览 8408 08-14

华为 MatePad Mini 平板官宣:“超强超 Mini”,9 月 4 日见

IT之家 浏览 15 08-29

入主三超新材的博达新能:消失的柬埔寨工厂

赶碳号 浏览 9142 08-06

57岁中国农场主在赞比亚遇害 嫌犯为其聘用的经理

红星新闻 浏览 6049 08-03

阿莱格里:莱奥担任中锋表现出众 球队逆境承受能力显著提升

直播吧 浏览 7181 07-27

美财长公开羞辱印度背后:特朗普想对印度下重拳

新民周刊 浏览 2960 08-02

全新电动宝马 M3 内饰曝光 预计2027年发布

天天电动 浏览 7278 07-01

“浅口鞋”今年夏天爆火!这5双怎么搭都好看

LinkFashion 浏览 8275 06-26

李嘉诚旗下长和突发公告 拟邀请内地投资者加入

网易财经 浏览 4497 07-28

王思聪现身日本被偶遇,和新女伴逛街举止亲密,与懒懒恋情引猜测

扒虾侃娱 浏览 7296 08-20

美国:407类产品因含钢铝成分被加征额外关税 税率50%

央视新闻客户端 浏览 1053 08-20

自猎网发布AI Agent招聘求职产品,自研L4 级别

网易科技报道 浏览 6732 07-25

强化安全标签,沃尔沃转型的守与破

网易汽车 浏览 8823 07-04
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3