确定性奖励 (Certainty-Based Rewards)

URLVR 的内在奖励范式之一，从策略的置信度（logits/概率分布）推导奖励，假设更高置信度 = 更正确。

代表方法

方法	奖励函数	核心思想
EM-RL	轨迹级平均对数概率	鼓励低熵（高置信）轨迹
RENT	序列级熵最小化	同上，不同归一化
RLIF	自确定性 (KL 散度)	鼓励输出分布偏离均匀
RLSC	概率自我一致性	高概率采样点的自我一致性
RLSF	概率差异	交叉样本概率对比

理论局限

intrinsic-rewards-sharpening 揭示了确定性奖励的根本问题：置信度是模型内部状态——它只反映"模型认为什么是对的"，而非"什么客观上是对的"。当模型自信但错误时，确定性奖励在积极强化错误。

对比 Ensemble-Based

| 确定性奖励 | ensemble-based-rewards | |-----------|------| | 单次前向传播 | 需多次采样 | | 计算成本低 | 计算成本高 | | 完全依赖模型内部状态 | 通过多样本交叉验证 | | 同样受 Sharpening 限制 | 同样受 Sharpening 限制 |

1.5 KiB Raw Permalink Blame History Unescape Escape

确定性奖励 (Certainty-Based Rewards)

代表方法

理论局限

对比 Ensemble-Based

相关概念

1.5 KiB

Raw Permalink Blame History