1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources |
|---|---|---|---|---|---|
| 内在奖励锐化机制 (Intrinsic Rewards Sharpening) | 2025-04-15 | 2026-05-01 | concept |
内在奖励锐化机制 (Intrinsic Rewards Sharpening)
所有 URLVR 内在奖励方法收敛于锐化模型初始分布的统一机制,由 He et al. (ICLR 2026) 首次理论化。
理论推导
从 KL 正则化 RL 目标出发,最优策略有闭式解:
\pi_\theta^*(y|x) = \frac{1}{Z(x)} \pi_{ref}(y|x) \exp\left(\frac{1}{\beta}r(x,y)\right)
当 r(x,y) 为二值内在奖励(如多数投票)时,指数项仅取两值:
- 多数答案:
\pi_{ref} \cdot e^{1/\beta} - 少数答案:
\pi_{ref} \cdot 1
结果:每步更新都在按指数因子 e^{1/\beta} 放大模型初始分布中已被偏好的输出。
双重性
| 条件 | 效果 |
|---|---|
| 初始置信度 对齐 正确性 | 放大器:增强正确推理路径 |
| 初始置信度 错位 正确性 | 灾难:系统性放大错误偏见 |
Rise-then-Fall 模式
内在奖励始终遵循统一的先升后降轨迹:
- 上升阶段: 锐化帮助模型在已有知识的边界内做更好选择
- 崩溃阶段: 锐化消灭了多样性,模型陷入自我强化循环
崩溃时机由 model-collapse-step 决定,而非超参数选择。
关键启示
"Intrinsic rewards are fundamentally bounded by what the model already knows."
这正是推广 self-verification-rewards 的根本动机——突破模型已有知识的边界。
相关概念
- unsupervised-rlvr — URLVR 全景
- model-collapse-step — 量化崩溃时机
- reward-hacking-llm — 崩溃的另一种表述
- he-urlvr-sharpening-2026 — 综述参考