关闭广告

研究人员提出OThink-R1,让大模型自行决定是否需要深度思考

DeepTech深科技2025-09-02 00:00:0224人阅读

近日,浙江大学硕士生张盛佳和所在团队发现:深度推理模型的部分推理过程是不必要的。一方面,目前的深度推理模型在面对一些例如“1+1=?”的简单问题时,也需要大费周章地进行深度思考。而人类在面对诸如此类的简单问题时,往往能够凭直觉给出答案;另一方面,在一些简单任务上(例如,常识问答和小学生数学题),即使不具有深度推理能力的大模型也能取得较好的效果。本次研究基于所观察到的现象提出了一种解决方案,使得深度推理大模型在解决问题时,能够自行决定是否进行深度思考,有利于计算资源更加合理的分配,提升大模型的推理效率。


图 | 张盛佳(来源:张盛佳)

据介绍,受限于数据与算力的规模,预训练以 Transformer 为基础架构的大模型所带来的收益正在不断式微。那么,该如何进一步提升大模型的能力?近来,以 DeepSeek-R1、OpenAI o1 为代表的深度推理大模型突破了预训练 Scaling Law 的限制,通过增加测试时计算资源的投入,在多种复杂任务上取得了优异的效果。与非深度推理大模型相比,深度推理大模型通过模仿人类进行深度思考,能够更加准确地理解用户的需求,更加深入地分析用户提出的问题。

然而,目前的深度推理大模型面临严重的冗余思考问题:即使面对例如“1+1=?”这样的简单问题,深度推理大模型也需要进行长时间的思考,造成了计算资源的浪费。

实际上,人类的思考模式可以分为“根据直觉得出答案”的快思考和“进行深入分析得出答案”的慢思考。在面临一些简单的问题时,人类往往能够通过直觉直接给出答案。


图 | OThink-R1 主体框架(来源:张盛佳)

受到人类思考模式的启发,该团队提出了这样一个问题:如何赋予深度推理大模型自动切换快慢思考的能力,自行决定是否需要进行深度思考,从而更加合理地利用计算资源?

针对该问题,他们提出了一种创新性解决方案。具体来说,本研究首先对非推理模型(模仿人类快思考,直接给出答案)和深度推理模型在简单任务(例如,常识问答和小学生数学题)上均成功解决的问题进行统计,收集这类问题上深度推理模型的推理思维链。通过大量比较推理思维链的异同,本研究总结出“必要推理”和“冗余推理”的多条特征,并根据此将深度推理思维链分类为必要推理和冗余推理,将冗余推理中的深度推理部分删除,构成一批混合推理思维链数据集。最后,基于该数据集对深度推理模型进行监督微调,赋予深度推理模型自动切换快慢思考的能力。

因此,本研究对实现“Test-time Scaling Law”具有十分重要的意义,其赋予了深度推理大模型自动切换快慢思考的能力,使得模型能够更加合理的分配计算资源。因此,模型能够通过内部知识直接给出一些简单问题的答案,也能够开启深度思考,细致地分析一些困难的问题。

据介绍,本次研究项目是 OPPO 与浙江大学联合攻关课题之一。受年初 DeepSeek-R1 一系列研究的启发,该团队尝试着来探索 DeepSeek-R1 模型的相关性质。如前所述,他们发现在使用 DeepSeek-R1 模型时,即使问很简单的问题,例如“1+1=?”或者“请帮我修改我的作业”之类的问题,也会生成特别长的思维链。这实际上是不必要的,不仅增长用户等待时间,还会浪费计算资源。

在研究初期,最困扰该团队的是如何设计稳定的模型输出结果验证器。一方面,他们发现 DeepSeek-R1 这类模型,遵循指令的能力不够优秀。这就导致模型推理的结果不具有特定的格式,加大了提取模型结果的难度。

另一方面,该团队自己构建了许多模型的输出结果验证器,但是这些结果验证器没有很好地考虑各种输出结果的风格,十分不稳定。有时会出现模型回答是正确的,但是并未正确地提取模型的答案。或者提取到错误的模型答案导致无法正确地评估各个模型的效果,以及无法正确地评估该团队所提出方法的效果。

在这个问题解决之后,该团队最初始的方案是想基于 GRPO 算法,利用强化学习的方式去激发出模型快慢思考的能力。然而,DeepSeek-R1 这一类模型指令遵循能力差,该团队设计了许多 prompt,都无法在训练的初期让模型输出跳过深度思考过程的回答。于是该团队转向设计奖励函数,期望能够通过设计一类特殊的奖励函数,让模型的思考过程长度首先降为 0,然后慢慢增长。经过该团队多次尝试,该团队设计了一类在理论上能够达到该效果的奖励函数,但是经过多次尝试,该奖励函数在实际中并未达到该团队的目标效果。

这个时候该团队尝试着使用 DPO 算法,将快思考的回答作为正样本,慢思考的回答作为负样本,进行模型训练。该团队进行了许多实验,DPO 效果极其不稳定,训练出的模型均表现出效果大幅下降。在阅读相关文献后,该团队发现,DPO 这类算法不适合分布剧烈变化的情况。于是最后该团队尝试使用监督微调的方式,进行模型的训练。具体做法是,收集训练集上推理模型的正确回答,删除这其中非推理模型也能解决的问题上推理模型的深度思考过程,使用监督微调进行训练。这个方案在初期取得了相比于之前两个方案更优的效果:模型性能不会大幅下降,同时模型能够开始自行决定是否思考。

然而,该团队发现,这个方案仍然无法很好地迁移到其他场景下,仍然会造成模型性能的大幅降低。于是该团队开始考虑,是否在非推理模型能够解决的问题上,模型的一部分深度思考过程也是必要的。从这个想法出发,该团队开始利用大模型对深度思考过程进行分类,将其分类为有效思考和冗余思考,重新构造数据集进行监督微调。最终,在这个方案下,该团队做出了比较好的效果。尽管该团队的研究已经赋予了推理大语言模型自动切换快慢思考的能力,但目前 OThink-R1 还依赖大模型 LLM-Judge 来判断推理冗余。未来该团队期望继续深入研究,以端到端的方式来赋予模型自动切换快慢思考的能力。

参考资料:

标题:OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

作者:Shengjia Zhang (Zhejiang University), Junjie Wu (OPPO Research Institute), Jiawei Chen (Zhejiang University), Changwang Zhang (OPPO Research Institute), Xingyu Lou (OPPO Research Institute), Wangchunshu Zhou (OPPO Research Institute), Sheng Zhou (Zhejiang University), Can Wang (Zhejiang University), Jun Wang (OPPO Research Institute)

链接: https://arxiv.org/abs/2506.02397

运营/排版:何晨龙

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

这一次,新剧惨遭抵制的黄奕,终是付出了代价?

白面书誏 浏览 1886 08-21

创想三维冲刺港股:靠3D打印年营收23亿 派息8140万 腾讯是股东

雷递 浏览 5685 08-18

禁止炒股,让特朗普破大防,美国3大股神谁最强?

北向财经 浏览 6132 08-05

王鸥现身何九华演出现场,男方亲口说过没结婚

兔姐吃瓜 浏览 4654 07-11

普普京:首批量产型"榛树"导弹已交付俄军

每日经济新闻 浏览 7314 08-03

谷歌Pixel 10系列价格曝光:799美元起,Pro Fold最贵2149美元

IT之家 浏览 7621 07-31

快讯|和睦家与阿里达摩院合作:推动肿瘤AI筛查

网易科技报道 浏览 4934 08-05

开售!智元保姆机器人售价10.9万,做接待可记住1000张脸

文汇报 浏览 2537 08-18

泰国向中美俄等26国发函 并称对柬埔寨"可能开战"

每日经济新闻 浏览 1813 07-27

浪子回头金不换!布勃利克集齐全场地冠军!

网球之家 浏览 6677 07-22

奔腾小马深耕“她经济”

经济观察报 浏览 809 07-29

伊沃比解释停更球队花絮:球队不让拍了,再拍要罚款的

懂球帝 浏览 7520 07-25

九盈一亏!银行系险企“中考”揭榜

国际金融报 浏览 13 08-22

米体:罗马有意埃吉纳尔多&速度达37.5公里/小时,矿工要1500万欧

直播吧 浏览 8600 08-09

6个月进账900亿,茅台高层猛推新品

21财闻汇 浏览 6988 08-14

罗永浩,九年熬出一碗泡面

豹变 浏览 14 08-23

8样暑期出行的必备好物!最便宜的只要个位数!

Yuki女人故事 浏览 7497 07-01

对黄金征税?白宫紧急表示“是个误会”

国际金融报 浏览 2449 08-12

零跑汽车上半年销量新高,扭亏为盈,营收同比大增近180%|财报见闻

华尔街见闻官方 浏览 6164 08-19

4人在青海无人区失联超30小时 为求救曾徒步40多公里

上游新闻 浏览 8511 07-29

2026款深蓝L07上市,为15万元级唯一全系标配华为乾崑智驾的轿车

红星资本局 浏览 9053 08-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3