Files
myWiki/concepts/dgae.md

1.8 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Difficulty-Balanced Group Advantage Estimation (DGAE) 2026-05-12 2026-05-12 concept
grpo
advantage-estimation
reinforcement-learning
arxiv:2601.20614

Difficulty-Balanced Group Advantage Estimation (DGAE)

DGAEdgpo 的核心技术之一,通过将 GRPO 优势估计中的 std 分母替换为 MAD平均绝对偏差实现难度平衡的更新幅度。

公式对比

GRPO (GRAE)

\hat{A}_{GR,i} = \frac{r_i - \text{mean}(\{r_i\})}{\text{std}(\{r_i\})}

DGAE

\hat{A}_{DG,i} = \frac{r_i - \text{mean}(\{r_i\})}{\text{MAD}(\{r_i\})}, \quad \text{MAD}(\{r_i\}) = \frac{1}{G}\sum_{j=1}^{G}|r_j - \text{mean}(\{r_i\})|

关键定理

Theorem 2:使用 DGAE 时,单个问题的总更新幅度(无裁剪)恒为:

\sum_{i=1}^{G} |\hat{A}_{DG,i}| = G

与奖励分布无关——无论准确率 p 是多少,更新幅度恒定。

对比 Theorem 1GRPO总更新幅度 $\propto 2G\sqrt{p(1-p)}$,在 p=0.5 时最大。

为什么 MAD 优于 std

  • std 引入 \sqrt{p(1-p)} 因子 → 更新幅度依赖准确率 → update-magnitude-imbalance
  • MAD = 2p(1-p) 对于二元奖励 → 恰好消除 p(1-p) 因子 → 难度平衡
  • MAD 的线性性质vs std 的平方根)使得归一化后的总更新幅度恒定

泛化性

Theorem 2 不要求奖励为二元值ri ∈ {0,1}),适用于任意奖励函数。这意味着 DGAE 可以用于更广泛的 RLVR 场景(如带 length penalty 的复合奖励)。

相关概念