20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/intrinsic-rewards-sharpening.md
+++ b/concepts/intrinsic-rewards-sharpening.md
@@ -0,0 +1,52 @@
+---
+title: 内在奖励锐化机制 (Intrinsic Rewards Sharpening)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# 内在奖励锐化机制 (Intrinsic Rewards Sharpening)
+
+**所有 URLVR 内在奖励方法收敛于锐化模型初始分布的统一机制**，由 He et al. (ICLR 2026) 首次理论化。
+
+## 理论推导
+
+从 KL 正则化 RL 目标出发，最优策略有闭式解：
+
+$$\pi_\theta^*(y|x) = \frac{1}{Z(x)} \pi_{ref}(y|x) \exp\left(\frac{1}{\beta}r(x,y)\right)$$
+
+当 $r(x,y)$ 为二值内在奖励（如多数投票）时，指数项仅取两值：
+- 多数答案: $\pi_{ref} \cdot e^{1/\beta}$
+- 少数答案: $\pi_{ref} \cdot 1$
+
+**结果**：每步更新都在按指数因子 $e^{1/\beta}$ 放大模型初始分布中已被偏好的输出。
+
+## 双重性
+
+| 条件 | 效果 |
+|------|------|
+| 初始置信度 **对齐** 正确性 | 放大器：增强正确推理路径 |
+| 初始置信度 **错位** 正确性 | 灾难：系统性放大错误偏见 |
+
+## Rise-then-Fall 模式
+
+内在奖励始终遵循统一的先升后降轨迹：
+- **上升阶段**: 锐化帮助模型在已有知识的边界内做更好选择
+- **崩溃阶段**: 锐化消灭了多样性，模型陷入自我强化循环
+
+崩溃时机由 [[model-collapse-step|模型先验]] 决定，而非超参数选择。
+
+## 关键启示
+
+> "Intrinsic rewards are fundamentally bounded by what the model already knows."
+
+这正是推广 [[self-verification-rewards|外部奖励]] 的根本动机——突破模型已有知识的边界。
+
+## 相关概念
+
+- [[unsupervised-rlvr]] — URLVR 全景
+- [[model-collapse-step]] — 量化崩溃时机
+- [[reward-hacking-llm]] — 崩溃的另一种表述
+- [[he-urlvr-sharpening-2026]] — 综述参考