关闭广告

ChatGPT智能体上线,奥特曼:感受到AGI的瞬间,但风险不可忽视

澎湃新闻2025-07-18 12:00:016208人阅读

当地时间7月17日,OpenAI推出ChatGPT智能体(ChatGPT agent),整合早期三项突破性进展,让具备思考与行动能力的智能体连接研究与实践。

ChatGPT智能体可以分析竞争对手并制作幻灯片,也可以计划并采购4人份早餐的食材。OpenAI CEO山姆·奥特曼表示,看着ChatGPT智能体借助计算机完成复杂任务,对他来说是一个“感受通用人工智能(AGI)”的瞬间,“那种看着计算机思考、规划并执行任务的感觉确实与众不同。”

不过他也提到,ChatGPT智能体的潜在风险也不容忽视,“如果向家人解释这款产品,我会说它处于技术前沿,尚属试验阶段。这是一个体验未来的机会,但在我们通过实际应用研究并改进它之前,不建议用于高风险场景或涉及大量个人信息的场合。”

具备思考与行动能力,用户可随时中断任务

如今的ChatGPT具备思考与行动能力,能主动从一系列工具库中选择合适工具,为用户从头到尾处理复杂任务。例如它可以查看日程表并结合近期新闻为用户简要介绍即将到来的客户会议、分析三家竞争对手并制作幻灯片。ChatGPT会智能浏览网站、筛选结果、在需要时提示用户安全登录、运行代码、开展分析,甚至生成可编辑的幻灯片和电子表格来汇总其研究成果。

它能帮助用户规划并预订旅行行程、设计并安排整场晚宴、计划并采购4人份早餐的食材。它还能借助ChatGPT连接器让用户关联Gmail、Github等应用,这样就能找到与用户提示词相关的信息并用于回应。用户也可以通过接管浏览器在任意网站登录,从而让它在研究与任务执行中探索得更深、范围更广。总之,它可以在访问和交互网页信息中选择最优路径、高效完成任务。

ChatGPT可以通过自身虚拟计算机执行这些任务,在推理与行动之间流畅切换,根据用户的指令处理复杂流程。最重要的是,控制权始终在用户手中。ChatGPT在执行重要操作前会请求许可,用户随时可以中断任务、接管浏览器或停止任务。

OpenAI表示,这些新功能的核心是一套统一的智能体系统。它整合了早期三项突破性进展的优势,即Operator智能体的网站交互能力、深度研究(deep research)智能体的信息整合能力以及ChatGPT本身的智能与流畅对话能力。

此前,Operator与深度研究各自具备独特优势,Operator能够在网页上滚动、点击和输入,深度研究则擅长分析与总结信息。两者的优势场景各有侧重,Operator无法深入分析或撰写详细报告,深度研究则无法与网站交互以优化结果,也无法访问需要用户身份验证的内容。因此,OpenAI将两者的优势融合在一起。

基准测试表现优异,潜在风险不容忽视

目前,ChatGPT智能体在基准测试中的性能表现优异。在“人类的最后考试”(Humanity’s Last Exam)这项通过广泛学科的专家级问题评估AI性能的测试中,ChatGPT智能体取得41.6的“单次通过率”(Pass@1 SOTA)新纪录。由于智能体动态规划并自主选择工具,面对同一任务时可在不同运行过程中采用多样解法,因此OpenAI通过并行策略扩展测试时,智能体得分进一步提升至44.4。


ChatGPT智能体在“人类的最后考试”中的表现。

FrontierMath是目前已知难度最高的数学基准测试,以未发表的新颖问题为特色,即便是专业数学家往往也需要数小时乃至数天解出。在该测试中,通过终端执行代码等工具,ChatGPT智能体的准确率达到27.4%,大幅超越以往的各类模型。

DSBench旨在评估智能体处理涵盖数据分析与建模的真实数据科学任务的能力。ChatGPT智能体在该测试中的表现显著超越人类水平。例如在DSBench的数据分析测试中,人类得分64.1%,ChatGPT智能体得分89.9%。


ChatGPT智能体在DSBench的数据分析测试中的表现。

即日起,Pro、Plus及Team用户可在任何对话的任意环节,选择“智能体模式”,直接激活ChatGPT的智能体功能。不过,OpenAI表示,尽管ChatGPT智能体已是处理复杂任务的强大工具,但今天的发布只是一个开始。OpenAI将持续迭代,定期推出重大改进,让它逐渐具备更强能力,为更多人提供更实用的帮助。

奥特曼也表示,尽管这款产品的实用性显著,但潜在风险也不容忽视。OpenAI内置了大量安全防护机制和警示功能,并从鲁棒训练、系统防护到用户控制部署了比以往任何时候都更全面的风险缓解措施,但无法预见所有可能的情况。本着迭代部署的原则,OpenAI会向用户发出充分警示,同时允许用户在谨慎考量后自主决定是否采取行动。“如果向家人解释这款产品,我会说它处于技术前沿,尚属试验阶段。这是一个体验未来的机会,但在我们通过实际应用研究并改进它之前,不建议用于高风险场景或涉及大量个人信息的场合。”

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一路繁花2:刘嘉玲夸王家卫,何赛飞装都不装了

娱乐圈笔娱君 浏览 38 11-09

朱俊龙现身评论区互动,雷蒙:谢谢兄弟一年送给哥哥两个亚军

懂球帝 浏览 2216 08-19

黄金有关税收新政落地首周,市场各方反应如何?

中国商报 浏览 46 11-09

倒计时11天!现实版“变形金刚”在眼前,把孩子的暑假交给它吧

贝壳财经 浏览 9846 08-03

印官员披露印美关税谈崩细节:印在高度敏感领域误判

上观新闻 浏览 5452 08-07

初探苹果 tvOS 26 首个公测版:融合液态玻璃设计

IT之家 浏览 4042 07-25

"旺仔小乔"彻底凉凉 网友发律师函要求返还80万打赏

环球网资讯 浏览 10084 08-02

刚刚,阿里千问 APP 开启公测,要做中国版ChatGPT | 附实测

爱范儿 浏览 65 11-17

美方威胁中国若继续买俄油将面临更高关税 外交部回应

澎湃新闻 浏览 6486 07-31

冲着陈晓去看《大生意人》,却被满脸狰狞的两位东北跨界演员惊艳

娱乐圈笔娱君 浏览 42 11-27

出轨、送女友进大牢,退圈四年后霍尊再度复出

除夕烟火灿烂 浏览 31 12-11

世体:巴萨17岁中场将和经纪人门德斯讨论去留,多特蒙德对其有意

直播吧 浏览 9956 08-06

马刺高薪续约福克斯是深思熟虑的结果 他下赛季会有何表现?

仰卧撑FTUer 浏览 6600 08-05

23岁中国女导演在柬埔寨坠亡 头部与身体遭受严重撞击

红星新闻 浏览 16 01-06

媒体:怒批欧洲软弱 结果特朗普自己成"吐槽大会"主角

新京报评论 浏览 25 12-12

体图:格纳布里愿意接受较低薪资,拜仁可能和他续约两年

懂球帝 浏览 33 10-23

关晓彤马尔代夫度假,满屏大长腿超抢镜

扒虾侃娱 浏览 53 10-22

以总理直言“将不会有巴勒斯坦国”

上观新闻 浏览 74 09-12

涉事记者遭驱逐!梅总呼吁ATP对邦齐罚款,克妈预测男女单冠军

网球之家 浏览 106 08-27

东体:泰山禁赛波及技术分和亚冠席位,全中超一起“受伤”

直播吧 浏览 9641 08-06

TVB对中医“下手”了,新剧《侠医》定档,陈豪、张曦雯再度联手

最爱酷影视 浏览 5019 08-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3