1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| GRPO 更新幅度不平衡 | 2026-05-12 | 2026-05-12 | concept |
|
|
GRPO 更新幅度不平衡
更新幅度不平衡 是 grpo 中被 Dai et al. (2026) 揭示并证明的一个关键理论缺陷:GRPO 的优势估计(GRAE)导致策略更新幅度对难度不同的问题不均匀分布。
Theorem 1(GRPO 更新幅度)
给定问题 q 的 G 个响应,每个获得二元准确率奖励 ri ∈ {0,1},准确率为 p:
\sum_{i=1}^{G} |\hat{A}_{GR,i}| = 2G\sqrt{p(1-p)}
该函数在 p = 0.5 时达到最大值,在 p → 0 或 p → 1 时趋近于 0。
含义分析
- p ≈ 0(极难题):更新幅度接近 0 → 最需要学习的问题反而被忽视
- p = 0.5(中等题):更新幅度最大 → 中等难度问题主导训练
- p ≈ 1(简单题):更新幅度接近 0 → 合理(模型已掌握)
为什么这是个问题?
p 接近 0 但非 0 的问题(如 p=0.1)是最理想的训练材料:
- 暴露模型的不完全掌握(不是完全不会)
- 提供至少一个正确答案用于定向学习
- 掌握更难问题可能提升更简单问题的表现(compositionality)
但这些问题的更新幅度恰恰被 GRPO系统性压制。
解决方案
dgae 用 MAD 替代 std:
\sum_{i=1}^{G} |\hat{A}_{DG,i}| = G \quad \text{(恒定)}
无论 p 是多少,每个问题获得相同的总更新幅度(Theorem 2)。
证明要点
- GRAE 的 std 分母引入
\sqrt{p(1-p)}因子 - DGAE 的 MAD 分母恰好消除
p(1-p)因子 - MAD = 2p(1-p) 对于二元奖励 → 归一化后总幅度 = G
相关概念
- grpo — 存在此问题的基线方法
- dgae — 解决方案
- dgpo — 算法实现
- dai-mathforge-2026