53 lines
1.7 KiB
Markdown
53 lines
1.7 KiB
Markdown
---
|
|
title: 内在奖励锐化机制 (Intrinsic Rewards Sharpening)
|
|
created: 2025-04-15
|
|
updated: 2026-05-01
|
|
type: concept
|
|
tags: []
|
|
sources: []
|
|
---
|
|
|
|
# 内在奖励锐化机制 (Intrinsic Rewards Sharpening)
|
|
|
|
**所有 URLVR 内在奖励方法收敛于锐化模型初始分布的统一机制**,由 He et al. (ICLR 2026) 首次理论化。
|
|
|
|
## 理论推导
|
|
|
|
从 KL 正则化 RL 目标出发,最优策略有闭式解:
|
|
|
|
$$\pi_\theta^*(y|x) = \frac{1}{Z(x)} \pi_{ref}(y|x) \exp\left(\frac{1}{\beta}r(x,y)\right)$$
|
|
|
|
当 $r(x,y)$ 为二值内在奖励(如多数投票)时,指数项仅取两值:
|
|
- 多数答案: $\pi_{ref} \cdot e^{1/\beta}$
|
|
- 少数答案: $\pi_{ref} \cdot 1$
|
|
|
|
**结果**:每步更新都在按指数因子 $e^{1/\beta}$ 放大模型初始分布中已被偏好的输出。
|
|
|
|
## 双重性
|
|
|
|
| 条件 | 效果 |
|
|
|------|------|
|
|
| 初始置信度 **对齐** 正确性 | 放大器:增强正确推理路径 |
|
|
| 初始置信度 **错位** 正确性 | 灾难:系统性放大错误偏见 |
|
|
|
|
## Rise-then-Fall 模式
|
|
|
|
内在奖励始终遵循统一的先升后降轨迹:
|
|
- **上升阶段**: 锐化帮助模型在已有知识的边界内做更好选择
|
|
- **崩溃阶段**: 锐化消灭了多样性,模型陷入自我强化循环
|
|
|
|
崩溃时机由 [[model-collapse-step|模型先验]] 决定,而非超参数选择。
|
|
|
|
## 关键启示
|
|
|
|
> "Intrinsic rewards are fundamentally bounded by what the model already knows."
|
|
|
|
这正是推广 [[self-verification-rewards|外部奖励]] 的根本动机——突破模型已有知识的边界。
|
|
|
|
## 相关概念
|
|
|
|
- [[unsupervised-rlvr]] — URLVR 全景
|
|
- [[model-collapse-step]] — 量化崩溃时机
|
|
- [[reward-hacking-llm]] — 崩溃的另一种表述
|
|
- [[he-urlvr-sharpening-2026]] — 综述参考
|