关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:026279人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。


事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。


如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"柴怼怼"被逮捕:因"打假"走红后售假 有人消费近10万

澎湃新闻 浏览 125 10-20

2025秋冬最火的5件外套,今年流行的风格都离不开它们!

LinkFashion 浏览 194 09-18

斯卢茨基:比赛跌宕起伏符合杯赛特质,再战河南暂无具体部署

懂球帝 浏览 8862 07-24

兰博基尼 CEO 温科尔曼称至少十年内不会放弃内燃机

IT之家 浏览 123 10-22

镜报:加纳乔和切尔西达协议,双方都相信他离开曼联后能大放异彩

直播吧 浏览 2031 08-09

媒体:高市内阁就"雷达照射"贼喊捉贼 遭批国家的耻辱

新民晚报 浏览 93 12-12

黄一鸣把女儿送回老家,王思聪该出手了?

娱圈小愚 浏览 83 09-01

再见美拉德,今年流行的“琥珀流光风”穿搭太时髦了!

LinkFashion 浏览 751 08-19

延迟写《南京照相馆》?好电影,确实是对比出来的

娱乐官已上任 浏览 141 09-21

演绎日式豪华MPV 全新日产Elgrand新车图解

车质网 浏览 98 12-02

战斗力拉满 中国海军已配齐“航母五件套”

极目新闻 浏览 223 09-24

车企“软肋”何时变“利器”?

盖世汽车 浏览 440 06-26

记者:红军有意引进于帕替代科纳特,拜仁想续约需付更高成本

懂球帝 浏览 75 09-26

王力宏“狂炫”热干面,薛凯琪杨泗港拍大片

极目新闻 浏览 1662 07-22

未来智能完成亿元级A轮融资,蚂蚁集团领投、启明创投超额跟投

雷科技 浏览 141 10-13

美职联季后赛东部对阵:迈阿密国际VS纳什维尔,赛制三局两胜

懂球帝 浏览 69 10-19

女律师拼车遇猥亵写备忘录求助司机:开始怕他有凶器

红星新闻 浏览 2352 07-14

罗马诺&泰晤士:利物浦签格伊遇到阻碍,水晶宫租伊戈尔交易告吹

直播吧 浏览 90 09-02

47岁高圆圆沈阳菜市场卖辣白菜!颜值封神

可乐谈情感 浏览 2 05-09

中俄联合空中战略巡航引日本担忧 国防部回应

界面新闻 浏览 48 12-11

雷军们没来,这届广州车展有啥看头?

道哥说车 浏览 110 11-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3