RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

2025-07-11 09:06:25 - 风事闻

清华和上交的套公式最新论文中,上演了一场“学术打假”的推理戏码。文中研究者们对当前“纯 RL 有利于提升模型推理能力”的神器上交情侣宾馆后台录音曝光主流观点提出了相反的意见。

通过一系列实验,清华他们证明引入强化学习的大最大模模型在某些任务中的表现,竟然不如未使用强化学习的新研型更模型。

论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的真推作用,尤其是套公式在赋予模型超越自身原有能力方面,效果可能并非像人们普遍认为的推理那样“无懈可击”。

RL 是神器上交推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

消息一出,网友们纷纷下场站队。大最大模

有人认为这篇文章抓住了 RL 自身的新研型更漏洞,虽然提高了采样效率,真推但它似乎在推理方面存在不足,套公式未来我们需要新的方法来释放 LLM 的全部潜力。

RL 是<strong>情侣宾馆后台录音曝光</strong>推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

也有人表示,或许强化学习实际上限制了模型开发新推理行为的能力。真正的推理增强可能需要蒸馏等方法。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

质疑声之外,RL 的追随者也在为“信仰”发声:这种说法是错的,验证远比生成简单的多。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

也有网友表示,这更像是奖励结构的缺陷,而非 RLVR 本身的问题。如果用二元奖励结构,出现这种情况可以理解。但我们可以调整奖励结构来缓解这个问题,甚至还能激励更好的推理。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

强化学习:擅长加速,不擅长开路

实验中,研究人员在三个具有代表性的领域进行了实验,来评估 RLVR 对基础模型和 RLVR 模型的推理能力边界的作用。

在数学任务实验中,研究团队在 GSM8K、MATH500 和 AIME24 等基准上评估了多个大语言模型系列(如 Qwen-2.5 和 LLaMA-3.1)及其经过 RL 训练的变体。他们通过分析 pass@k 曲线,比较了基础模型与 RL 模型的表现,发现虽然 RL 在低 k 值下提升了模型的准确性,但在高 k 情况下却显著降低了问题的覆盖范围。

此外,研究者还手动审查了模型生成的 CoT(Chain of Thought)推理过程,以确认正确答案是推理得出而非纯属运气。最后,他们还研究了采用 Oat-Zero 方法训练的模型,并对信息集进行了过滤,剔除容易猜测的问题,从而聚焦于更具挑战性的样本。

整体结果显示,尽管 RL 能在初始准确率上带来提升,基础模型在推理覆盖率方面仍表现更为稳健。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

在编码任务实验中,研究团队在 LiveCodeBench、HumanEval+ 和 MBPP+ 等基准上评估了源自 Qwen2.5-7B-Instruct-1M 的 RLVR 训练模型 CodeR1-Zero-Qwen2.5-7B。他们通过 pass@k 指标来衡量性能,并根据预定义的测试用例评估模型的正确性。

结果显示,RLVR 提升了单样本 pass@1 的分数,但在较高采样数(k = 128)时,模型的覆盖率有所下降。与此相比,原始模型在较大 k 值下表现出了持续改进的潜力,而 RLVR 的性能则趋于平稳。这表明,尽管 RLVR 提高了模型的确定性准确性,但在探索多样性方面存在一定的限制。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

在视觉推理实验中,研究团队在过滤后的视觉推理基准(MathVista 和 MathVision)上评估了 Qwen-2.5-VL-7B,删除了多项选择题,聚焦于稳健的问题解决能力。RLVR 在视觉推理任务中的表现提升与数学和编码基准中的改进相一致,表明原始模型已能够解决广泛的问题,即便是在多模态任务中也同样如此。

跨领域的一致性表明,RLVR 提升了模型的推理能力,同时并未从根本上改变模型的问题解决策略。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

推理能力的边界

使用单次通过的成功率或平均核采样衡量模型推理能力边界的传统指标存在关键缺陷。如果模型在少数几次尝试后未能解决难题,但却本可以通过更多次的采样获得成功,此时其真实推理潜力可能会被低估。

如果为基础模型投入大量采样资源,它的性能能否与经过强化学习训练的模型相匹配?

为精准评估大语言模型的推理能力边界,研究团队将代码生成领域常用的pass@k指标拓展至所有可验证奖励的任务。针对一个问题,从模型中采样k个输出,若至少一个样本通过验证,该问题的pass@k 值为1,否则为0。信息集上的平均 pass@k 值反映了模型在 k 次试验内可解决的信息集问题比例,能严格评估 LLM 的推理能力覆盖范围。

直接按问题采样k个输出计算pass@k可能导致高方差。他们采用无偏估计法,对评估信息集D中的每个问题生成 n 个样本(n ≥ k),统计正确样本数。对于使用编译器和预定义单元测试用例作为验证器的编码任务,pass@k 值能准确反映模型是否能解决问题。

然而,随着 k 增大,数学问题中“黑客”行为可能凸显,即模型可能生成错误的推理过程,却在多次采样中偶然得出正确答案,这一情况常被以往指标忽视。为此,他们筛选出易被“黑客”攻克的问题,并手动检查部分模型输出的 CoT 正确性。结合这些措施,他们严格评估了 LLM 的推理能力极限。

当强化学习不再“强化”

清华与上交的这篇论文,为当前业界广泛推崇的强化学习范式敲响了警钟。让我们不得不重新思考强化学习在大模型训练流程中的真正角色。

我们也不能将模型的“能力”与“效率”混为一谈。能力,指的是模型是否拥有解决某类问题的潜质与逻辑链条;效率,则是在给定的能力范围内,模型能以多快、多稳、多省资源的方式得出答案。

强化学习或许确实能够提升模型在已有能力基础上的输出表现(比如在低采样次数下更快给出正确答案),但这并不代表它为模型带来了新的推理路径或更复杂问题的解决能力。相反,在高采样场景中,RL 带来的“收敛性”可能牺牲了答案的多样性,从而错失了解决更多难题的机会。

雷峰网(公众号:雷峰网)认为,强化学习更像是一种能力调控器,而非能力创造器。它可以让模型更擅长做已经能做的事,但难以让模型做出“原本不会的事”。正因如此,若将 RL 简单视为提升模型通用智能的万能钥匙,未免过于乐观。接下来的工艺路线,可能需要更多关注基础模型在表示能力、知识组织与推理路径构建等方面的设计,而非过度依赖下游的策略微调。

总的来说,这项研究的意义不在于“RL 无用”的结论,而在于它揭示了在过热预期背后,强化学习真正适用的边界。这或许会促使研究者和企业在制定大模型优化方案时,回归问题本质,用更清晰的标准衡量“能力的提升”究竟意味着什么。

参考链接:

https://arxiv.org/pdf/2504.13837

https://x.com/iScienceLuvr/status/1914171319970848942

https://limit-of-rlvr.github.io/

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

- END -

54

2024年IEEE Fellow名单揭晓:「视觉智能」领域十余位华人学者入选!

2024年IEEE Fellow名单揭晓:「视觉智能」领域十余位华人学者入选!

近日,国际电气与电子工程师协会IEEE)公布了2024年新晋Fellow名单。本次共从被提名的949名候选人中选出323名IEEE Fellow,其中华人学者有116位,占总人数的36%左右。IEEE

闫勤温情演绎《爱上海军蓝》刘芳 7月2日腾讯视频、爱奇艺双平台首播 共鉴海军家庭的深海温情与坚守

闫勤温情演绎《爱上海军蓝》刘芳 7月2日腾讯视频、爱奇艺双平台首播 共鉴海军家庭的深海温情与坚守

来源标题: 闫勤温情演绎《爱上海军蓝》刘芳 7月2日腾讯视频、爱奇艺双平台首播 共鉴海军家庭的深海温情与坚守当深蓝使命碰撞细腻亲情,一部聚焦海军战士与军属故事的精品力作《爱上海军蓝》即将重磅来袭!7月

世俱杯赛场的保鲜MVP!海信冰箱用黑科技“踢”出保鲜新高度

世俱杯赛场的保鲜MVP!海信冰箱用黑科技“踢”出保鲜新高度

来源标题:世俱杯赛场的保鲜MVP!海信冰箱用黑科技“踢”出保鲜新高度【环球网消费综合报道】连日来,全球球迷的目光都聚焦到了2025年世俱杯的绿茵场上,这场足球盛宴,不仅是顶级球队的对决,更展现了科技与

掌阅科技出品短剧《遮天》上线海外平台iDrama 加速拓展短剧出海

掌阅科技出品短剧《遮天》上线海外平台iDrama 加速拓展短剧出海

来源标题:掌阅科技出品短剧《遮天》上线海外平台iDrama 加速拓展短剧出海近日,由掌阅科技出品的仙侠题材短剧《遮天》上线海外短剧平台iDrama。据了解,该剧已于6月20日在国内首播,主打AI技术与

女子孕前期长时间休假,“副处老公”扮演什么角色

女子孕前期长时间休假,“副处老公”扮演什么角色

撰稿/新京报评论员 马小龙编辑/迟道华 校对/王心据九派新闻报道,近日,有网友在社交平台发文称,其在小县城的文旅局工作,现已怀孕20周,孕早期请假2个月,之后也有一段时间在家没有上班,老公是市里副处领

杨紫李现《锦绣芳华》定档6月30日 牡丹重耀续写盛唐华章

杨紫李现《锦绣芳华》定档6月30日 牡丹重耀续写盛唐华章

来源标题:杨紫李现《锦绣芳华》定档6月30日 牡丹重耀续写盛唐华章由华策影视出品,傅斌星任总出品人,张灼任总制片人,孙旭任制片人,龙亚任艺术总监,丁梓光执导,张鸢盎编剧,杨紫、李现领衔主演,魏哲鸣特邀

《睡美人》《胡桃夹子》《天鹅湖》“三颗钻石”同台 “老柴”经典倾倒津城观众

《睡美人》《胡桃夹子》《天鹅湖》“三颗钻石”同台 “老柴”经典倾倒津城观众

来源标题:《睡美人》《胡桃夹子》《天鹅湖》“三颗钻石”同台 “老柴”经典倾倒津城观众29日晚,“柴科夫斯基芭蕾舞剧三大经典交响音乐会”在天津大礼堂奏响。这场由天津交响乐团倾力打

电影《热血江湖》在浙江丽水开机了由赵天齐领衔主演,还有多名熟脸演员加盟

电影《热血江湖》在浙江丽水开机了由赵天齐领衔主演,还有多名熟脸演员加盟

来源标题:电影热血江湖)在浙江丽水开机了由赵天齐领衔主演6月16日,由浙江神巨影视文化有限公司出品、制作,赵天齐领衔主演的电影《热血江湖》,在浙江丽水开机了,该剧由徐文林、赵天齐指导,张悦编剧。该剧融

超 50 位两院院士、200 位青年科学家!2023「青年科学家 50² 论坛」深圳举办

超 50 位两院院士、200 位青年科学家!2023「青年科学家 50² 论坛」深圳举办

9月24日,由南方科技大学、腾讯公司共同主办的第三届“青年科学家50²论坛”在深圳开幕。韩启德、窦贤康、薛其坤、潘建伟等知名科学家,超过50位两院院士,20位大学校长、副校长,50多位新基石研究员,近

张哲通《小娘惹之翡翠山》完美收官 深情守护终获圆满

张哲通《小娘惹之翡翠山》完美收官  深情守护终获圆满

来源标题: 张哲通《小娘惹之翡翠山》完美收官 深情守护终获圆满备受关注的新加坡年度大戏《小娘惹之翡翠山》近日圆满收官,自播出以来以跌宕起伏的剧情、浓厚的娘惹文化和鲜活的角色,掀起追剧热潮,赢得观众热

扣人心弦,交响乐团奏响“跨次元”旋律

扣人心弦,交响乐团奏响“跨次元”旋律

来源标题:扣人心弦,交响乐团奏响“跨次元”旋律和音社演出现场。 受访者供图不少专攻二次元音乐的民营乐团,逐渐积累忠实听众,通过商业演出、IP合作、周边售卖,甚至全国巡演等方式运转,逐渐走向职业化、市场

腾讯在线视频马延琨:跳出“长短”,以“横竖屏”重构剧集生态

腾讯在线视频马延琨:跳出“长短”,以“横竖屏”重构剧集生态

来源标题:腾讯在线视频马延琨:跳出“长短”,以“横竖屏”重构剧集生态6月23日,2025腾讯视频影视年度发布在上海举行。会上,腾讯在线视频联席总裁兼首席运营官马延琨分享了腾讯视频2025年的平台策略,