Files
myWiki/concepts/certainty-based-rewards.md

43 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: 确定性奖励 (Certainty-Based Rewards)
created: 2025-04-15
updated: 2026-05-01
type: concept
tags: []
sources: []
---
# 确定性奖励 (Certainty-Based Rewards)
**URLVR 的内在奖励范式之一**从策略的置信度logits/概率分布)推导奖励,假设更高置信度 = 更正确。
## 代表方法
| 方法 | 奖励函数 | 核心思想 |
|------|---------|---------|
| EM-RL | 轨迹级平均对数概率 | 鼓励低熵(高置信)轨迹 |
| RENT | 序列级熵最小化 | 同上,不同归一化 |
| RLIF | 自确定性 (KL 散度) | 鼓励输出分布偏离均匀 |
| RLSC | 概率自我一致性 | 高概率采样点的自我一致性 |
| RLSF | 概率差异 | 交叉样本概率对比 |
## 理论局限
[[intrinsic-rewards-sharpening|Sharpening 理论]] 揭示了确定性奖励的根本问题:置信度是模型内部状态——它只反映"模型认为什么是对的",而非"什么客观上是对的"。当模型自信但错误时,确定性奖励在积极强化错误。
## 对比 Ensemble-Based
| 确定性奖励 | [[ensemble-based-rewards|集成奖励]] |
|-----------|------|
| 单次前向传播 | 需多次采样 |
| 计算成本低 | 计算成本高 |
| 完全依赖模型内部状态 | 通过多样本交叉验证 |
| 同样受 Sharpening 限制 | 同样受 Sharpening 限制 |
## 相关概念
- [[ensemble-based-rewards]] — 另一内在范式
- [[intrinsic-rewards-sharpening]] — 统一理论
- [[unsupervised-rlvr]] — URLVR 全景
- [[he-urlvr-sharpening-2026]] — 综述参考