无监督可验证奖励强化学习 (URLVR)

Unsupervised RL with Verifiable Rewards — 无需 ground truth 标签的强化学习范式，用代理奖励信号扩展 LLM 后训练。

定义

URLVR 是对标准 RLVR 的扩展。标准 RLVR（如 DeepSeek-R1）依赖可验证的 ground truth（数学答案对错、代码通过测试），而 URLVR 从模型自身或无标签数据中推导奖励信号。

\max_{\pi_\theta} \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} [r(x, y)] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]

关键区别在于 r(x,y) 的来源。

He et al. (2026) 证明：所有内在 URLVR 方法统一收敛于 intrinsic-rewards-sharpening，这既是其优势（置信度-正确性对齐时）也是其根本局限（错位时灾难性失败）。