SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.5 KiB

Raw Blame History

title, domain, tags, sources

title

domain

tags

sources

指数衰减奖励 (Exponential Decay Reward)

Reinforcement Learning / Reward Design

reward

counting

grpo

exponential-decay

thinking-with-visual-primitives

指数衰减奖励 (Exponential Decay Reward)

计数任务的平滑奖励函数：不使用二元对错，而是基于相对误差的指数衰减——越接近正确答案奖励越高。

公式

R(\hat{y}, y) = \alpha \cdot \exp\left(-\beta \cdot \frac{|\hat{y} - y|}{|y| + 1}\right)

其中：

$\hat{y}$：预测计数
$y$：真实计数
$|y| + 1$：归一化项，使奖励依赖于相对误差
$\alpha = 0.7$：奖励缩放系数
$\beta = 3$：衰减速率

设计动机

传统二元奖励（对/错）的问题：

预测 99 vs 真实 100 → 零奖励（与预测 1 vs 100 相同）
无法提供梯度信号帮助模型「靠近」正确答案

指数衰减奖励的优势：

平滑梯度：预测 99 时仍有高奖励
相对误差：大基数场景对小偏差更宽容
稳定训练：避免 RL 奖励空间的稀疏问题

示例

预测	真实	相对误差	奖励
10	10	0	0.7
9	10	0.091	0.53
5	10	0.455	0.18
0	10	0.909	0.046

相关概念

group-relative-policy-optimization — 使用此奖励的 RL 算法
coarse-grained-counting / fine-grained-counting — 应用场景
reward-model — 奖励设计体系