关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:026178人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。


事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。


如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

搭上芯片“黑马”新凯来的光伏龙头,高管集体减持,股价大跌超7%

红星资本局 浏览 23 10-20

上海W盛典晚宴,杨幂靠边坐,马伊琍脸肿又黑,C位被1200万人围观

可乐谈情感 浏览 60 08-22

华为 nova Flip 手机 7 月 31 日开启 HarmonyOS 5.1 版本升级

IT之家 浏览 2071 07-23

“苹果牌AI”拥抱 GPT-5,预计下月登陆 iOS / iPadOS / macOS 26

IT之家 浏览 8724 08-09

父亲纵火烧死母亲被执行死刑 "报仇"的儿子:尘埃落定

红星新闻 浏览 1861 08-02

基金二季度持仓揭秘!多只创新药和AI算力翻倍牛股被重仓!

私募排排网 浏览 2986 07-24

媒体人:王大雷本赛季不会让位于金永,明年两人出场时间会接近

直播吧 浏览 9663 08-05

美印友谊的中流砥柱被FBI大张旗鼓拘捕 被控"串通中国"

澎湃新闻 浏览 14 10-17

涪陵榨菜的创业者们陆续退场

斑马消费 浏览 23 09-29

北京顶豪法拍逆袭:有亿元级毛坯别墅遭10位富豪疯抢

每日经济新闻 浏览 11 10-20

AI浪潮下,具身智能的崛起与数据瓶颈

钛媒体APP 浏览 6284 08-11

没有顶级腰子,建议别来跑步

后厂村体工队 浏览 2747 08-13

又嫁错人?贾静雯老公过往争议被扒,催生四胎还和老婆闺蜜搞暧昧

萌神木木 浏览 12 10-22

成毅李一桐参加爱奇艺717 ,为《王权篇》打call,这是要上线了?

最爱酷影视 浏览 8235 07-17

中国灵芝第一股寿仙谷,致敬保健产业30年

证券市场周刊 浏览 27 09-22

记者:菲利克斯加盟利雅得胜利的转会已完成,只差官宣

懂球帝 浏览 3164 07-29

WTT常规挑战赛场馆突发火灾,比赛推迟进行

懂球帝 浏览 3391 07-26

外观有调整 新款起亚狮铂拓界实车曝光

车质网 浏览 15 10-10

2000元抵4000元 阿维塔12四激光版预售

网易汽车 浏览 12 10-20

马杨马君妍官宣怀二胎,马立奥要当哥哥了

扒虾侃娱 浏览 10 10-23

海军戚继光舰、沂蒙山舰抵达香港

央视新闻客户端 浏览 23 10-01
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3