Files
myWiki/papers/he-urlvr-sharpening-2026.md

3.0 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
How Far Can Unsupervised RLVR Scale LLM Training? 2026-05-01 2026-05-01 paper

How Far Can Unsupervised RLVR Scale LLM Training?

  • arXiv: 2603.08660
  • 作者: He, Zuo, Liu, et al. (22 authors, Tsinghua/Shanghai AI Lab)
  • 会议: ICLR 2026
  • 标签: #RLVR #unsupervised-learning #reward-hacking

中文摘要

URLVR无监督可验证奖励强化学习被视为突破 LLM 训练监督瓶颈的希望。然而这篇 ICLR 2026 论文通过分类学+理论+大规模实验论证了一个核心发现:所有内在奖励方法本质上都在做同一件事——锐化模型的初始分布。这个机制在模型自信且正确时奏效,但在自信却错误时灾难性放大偏见。实验表明内在奖励统一遵循 rise-then-fall 模式,崩溃时间由模型先验决定而非工程选择。作者提出 model-collapse-step 作为衡量模型先验的实用指标,并探索 self-verification-rewards 作为外部奖励路径的突破。

核心问题

监督 RLVRDeepSeek-R1、Gemini 2.5、Qwen3很强大但依赖 ground truth 标签——而随着模型逼近甚至超越人类专家水平获取可靠标签越来越不可行。URLVR 试图通过无标签奖励突破这一瓶颈。本文提出根本问题:内在 URLVR 真的能规模化 LLM 训练吗?

方法论贡献

  1. URLVR 分类法: certainty-based-rewards vs ensemble-based-rewards前者从策略置信度logits/熵)推导,后者从多样本一致性(多数投票)推导
  2. intrinsic-rewards-sharpening: 从 KL 正则化 RL 目标出发,推导出所有内在方法的闭式解都收敛于锐化初始分布——仅放大已有偏好,不发现新知识
  3. Rise-then-Fall 定律: 无论内在方法具体设计如何,始终先升后降,崩溃不可避免
  4. model-collapse-step: 衡量模型在内在 URLVR 下能维持多久才崩溃的步数,比 pass@k 更准确,无需 ground truth

关键发现

发现 含义
内在奖励统一锐化初始分布 无法超越模型已有知识
Rise-then-Fall 是必然模式 崩溃时间反映模型先验
MCS 预测 RL 可训练性 低成本基模型选择替代方案
[[self-verification-rewards Self-verification]] 无崩溃

相关概念