Files
myWiki/papers/he-urlvr-sharpening-2026.md

54 lines
3.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "How Far Can Unsupervised RLVR Scale LLM Training?"
created: 2026-05-01
updated: 2026-05-01
type: paper
tags: []
sources: []
---
# How Far Can Unsupervised RLVR Scale LLM Training?
- **arXiv**: 2603.08660
- **作者**: He, Zuo, Liu, et al. (22 authors, Tsinghua/Shanghai AI Lab)
- **会议**: ICLR 2026
- **标签**: #RLVR #unsupervised-learning #reward-hacking
## 中文摘要
URLVR无监督可验证奖励强化学习被视为突破 LLM 训练监督瓶颈的希望。然而这篇 ICLR 2026 论文通过分类学+理论+大规模实验论证了一个核心发现:**所有内在奖励方法本质上都在做同一件事——锐化模型的初始分布**。这个机制在模型自信且正确时奏效,但在自信却错误时灾难性放大偏见。实验表明内在奖励统一遵循 rise-then-fall 模式,崩溃时间由模型先验决定而非工程选择。作者提出 [[model-collapse-step|Model Collapse Step]] 作为衡量模型先验的实用指标,并探索 [[self-verification-rewards|self-verification]] 作为外部奖励路径的突破。
## 核心问题
监督 RLVRDeepSeek-R1、Gemini 2.5、Qwen3很强大但依赖 ground truth 标签——而随着模型逼近甚至超越人类专家水平获取可靠标签越来越不可行。URLVR 试图通过无标签奖励突破这一瓶颈。**本文提出根本问题:内在 URLVR 真的能规模化 LLM 训练吗?**
## 方法论贡献
1. **URLVR 分类法**: [[certainty-based-rewards|确定性奖励]] vs [[ensemble-based-rewards|集成奖励]]前者从策略置信度logits/熵)推导,后者从多样本一致性(多数投票)推导
2. **[[intrinsic-rewards-sharpening|Sharpening 统一理论]]**: 从 KL 正则化 RL 目标出发,推导出所有内在方法的闭式解都收敛于锐化初始分布——仅放大已有偏好,不发现新知识
3. **Rise-then-Fall 定律**: 无论内在方法具体设计如何,始终先升后降,崩溃不可避免
4. **[[model-collapse-step|Model Collapse Step (MCS)]]**: 衡量模型在内在 URLVR 下能维持多久才崩溃的步数,比 pass@k 更准确,无需 ground truth
## 关键发现
| 发现 | 含义 |
|------|------|
| 内在奖励统一锐化初始分布 | 无法超越模型已有知识 |
| Rise-then-Fall 是必然模式 | 崩溃时间反映模型先验 |
| MCS 预测 RL 可训练性 | 低成本基模型选择替代方案 |
| [[self-verification-rewards|Self-verification]] 无崩溃 | 外部奖励可能突破天花板 |
## 相关概念
- [[test-time-training-rl]]
- [[rlvr-unified-framework]]
- [[confidence-correctness-alignment]]
- [[unsupervised-rlvr]] — URLVR 范式定义
- [[intrinsic-rewards-sharpening]] — Sharpening 机制(理论核心)
- [[model-collapse-step]] — MCS 指标
- [[self-verification-rewards]] — 外部奖励突破
- [[reward-hacking-llm]] — 奖励黑客与模型崩溃
- [[certainty-based-rewards]] — 确定性奖励
- [[ensemble-based-rewards]] — 集成奖励/多数投票
- [[generation-verification-asymmetry]] — 生成-验证不对称性