Files
myWiki/concepts/certainty-based-rewards.md

1.5 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
确定性奖励 (Certainty-Based Rewards) 2025-04-15 2026-05-01 concept

确定性奖励 (Certainty-Based Rewards)

URLVR 的内在奖励范式之一从策略的置信度logits/概率分布)推导奖励,假设更高置信度 = 更正确。

代表方法

方法 奖励函数 核心思想
EM-RL 轨迹级平均对数概率 鼓励低熵(高置信)轨迹
RENT 序列级熵最小化 同上,不同归一化
RLIF 自确定性 (KL 散度) 鼓励输出分布偏离均匀
RLSC 概率自我一致性 高概率采样点的自我一致性
RLSF 概率差异 交叉样本概率对比

理论局限

intrinsic-rewards-sharpening 揭示了确定性奖励的根本问题:置信度是模型内部状态——它只反映"模型认为什么是对的",而非"什么客观上是对的"。当模型自信但错误时,确定性奖励在积极强化错误。

对比 Ensemble-Based

| 确定性奖励 | ensemble-based-rewards | |-----------|------| | 单次前向传播 | 需多次采样 | | 计算成本低 | 计算成本高 | | 完全依赖模型内部状态 | 通过多样本交叉验证 | | 同样受 Sharpening 限制 | 同样受 Sharpening 限制 |

相关概念