SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

内在奖励锐化机制 (Intrinsic Rewards Sharpening)

2025-04-15

2026-05-01

concept

内在奖励锐化机制 (Intrinsic Rewards Sharpening)

所有 URLVR 内在奖励方法收敛于锐化模型初始分布的统一机制，由 He et al. (ICLR 2026) 首次理论化。

理论推导

从 KL 正则化 RL 目标出发，最优策略有闭式解：

\pi_\theta^*(y|x) = \frac{1}{Z(x)} \pi_{ref}(y|x) \exp\left(\frac{1}{\beta}r(x,y)\right)

当 r(x,y) 为二值内在奖励（如多数投票）时，指数项仅取两值：

多数答案: \pi_{ref} \cdot e^{1/\beta}
少数答案: \pi_{ref} \cdot 1

结果：每步更新都在按指数因子 e^{1/\beta} 放大模型初始分布中已被偏好的输出。

双重性

条件	效果
初始置信度对齐正确性	放大器：增强正确推理路径
初始置信度错位正确性	灾难：系统性放大错误偏见

Rise-then-Fall 模式

内在奖励始终遵循统一的先升后降轨迹：

上升阶段: 锐化帮助模型在已有知识的边界内做更好选择
崩溃阶段: 锐化消灭了多样性，模型陷入自我强化循环

崩溃时机由 model-collapse-step 决定，而非超参数选择。

关键启示

"Intrinsic rewards are fundamentally bounded by what the model already knows."

这正是推广 self-verification-rewards 的根本动机——突破模型已有知识的边界。

相关概念

unsupervised-rlvr — URLVR 全景
model-collapse-step — 量化崩溃时机
reward-hacking-llm — 崩溃的另一种表述
he-urlvr-sharpening-2026 — 综述参考