20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/papers/he-urlvr-sharpening-2026.md
+++ b/papers/he-urlvr-sharpening-2026.md
@@ -0,0 +1,53 @@
+---
+title: "How Far Can Unsupervised RLVR Scale LLM Training?"
+created: 2026-05-01
+updated: 2026-05-01
+type: paper
+tags: []
+sources: []
+---
+
+# How Far Can Unsupervised RLVR Scale LLM Training?
+
+- **arXiv**: 2603.08660
+- **作者**: He, Zuo, Liu, et al. (22 authors, Tsinghua/Shanghai AI Lab)
+- **会议**: ICLR 2026
+- **标签**: #RLVR #unsupervised-learning #reward-hacking
+
+## 中文摘要
+
+URLVR（无监督可验证奖励强化学习）被视为突破 LLM 训练监督瓶颈的希望。然而这篇 ICLR 2026 论文通过分类学+理论+大规模实验论证了一个核心发现：**所有内在奖励方法本质上都在做同一件事——锐化模型的初始分布**。这个机制在模型自信且正确时奏效，但在自信却错误时灾难性放大偏见。实验表明内在奖励统一遵循 rise-then-fall 模式，崩溃时间由模型先验决定而非工程选择。作者提出 [[model-collapse-step|Model Collapse Step]] 作为衡量模型先验的实用指标，并探索 [[self-verification-rewards|self-verification]] 作为外部奖励路径的突破。
+
+## 核心问题
+
+监督 RLVR（DeepSeek-R1、Gemini 2.5、Qwen3）很强大，但依赖 ground truth 标签——而随着模型逼近甚至超越人类专家水平，获取可靠标签越来越不可行。URLVR 试图通过无标签奖励突破这一瓶颈。**本文提出根本问题：内在 URLVR 真的能规模化 LLM 训练吗？**
+
+## 方法论贡献
+
+1. **URLVR 分类法**: [[certainty-based-rewards|确定性奖励]] vs [[ensemble-based-rewards|集成奖励]]，前者从策略置信度（logits/熵）推导，后者从多样本一致性（多数投票）推导
+2. **[[intrinsic-rewards-sharpening|Sharpening 统一理论]]**: 从 KL 正则化 RL 目标出发，推导出所有内在方法的闭式解都收敛于锐化初始分布——仅放大已有偏好，不发现新知识
+3. **Rise-then-Fall 定律**: 无论内在方法具体设计如何，始终先升后降，崩溃不可避免
+4. **[[model-collapse-step|Model Collapse Step (MCS)]]**: 衡量模型在内在 URLVR 下能维持多久才崩溃的步数，比 pass@k 更准确，无需 ground truth
+
+## 关键发现
+
+| 发现 | 含义 |
+|------|------|
+| 内在奖励统一锐化初始分布 | 无法超越模型已有知识 |
+| Rise-then-Fall 是必然模式 | 崩溃时间反映模型先验 |
+| MCS 预测 RL 可训练性 | 低成本基模型选择替代方案 |
+| [[self-verification-rewards|Self-verification]] 无崩溃 | 外部奖励可能突破天花板 |
+
+## 相关概念
+- [[test-time-training-rl]]
+- [[rlvr-unified-framework]]
+- [[confidence-correctness-alignment]]
+
+- [[unsupervised-rlvr]] — URLVR 范式定义
+- [[intrinsic-rewards-sharpening]] — Sharpening 机制（理论核心）
+- [[model-collapse-step]] — MCS 指标
+- [[self-verification-rewards]] — 外部奖励突破
+- [[reward-hacking-llm]] — 奖励黑客与模型崩溃
+- [[certainty-based-rewards]] — 确定性奖励
+- [[ensemble-based-rewards]] — 集成奖励/多数投票
+- [[generation-verification-asymmetry]] — 生成-验证不对称性