Files
myWiki/concepts/update-magnitude-imbalance.md

57 lines
1.9 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "GRPO 更新幅度不平衡"
created: 2026-05-12
updated: 2026-05-12
type: concept
tags: ["grpo", "reinforcement-learning", "theoretical-analysis"]
sources: ["arxiv:2601.20614"]
---
# GRPO 更新幅度不平衡
**更新幅度不平衡** 是 [[grpo|GRPO]] 中被 Dai et al. (2026) 揭示并证明的一个关键理论缺陷GRPO 的优势估计GRAE导致策略更新幅度对难度不同的问题**不均匀分布**。
## Theorem 1GRPO 更新幅度)
给定问题 q 的 G 个响应,每个获得二元准确率奖励 ri ∈ {0,1},准确率为 p
$$\sum_{i=1}^{G} |\hat{A}_{GR,i}| = 2G\sqrt{p(1-p)}$$
该函数在 p = 0.5 时达到**最大值**,在 p → 0 或 p → 1 时趋近于 0。
## 含义分析
- **p ≈ 0**(极难题):更新幅度接近 0 → **最需要学习的问题反而被忽视**
- **p = 0.5**(中等题):更新幅度最大 → **中等难度问题主导训练**
- **p ≈ 1**(简单题):更新幅度接近 0 → 合理(模型已掌握)
## 为什么这是个问题?
p 接近 0 但非 0 的问题(如 p=0.1)是**最理想的训练材料**
- 暴露模型的不完全掌握(不是完全不会)
- 提供至少一个正确答案用于定向学习
- 掌握更难问题可能提升更简单问题的表现compositionality
但这些问题的更新幅度恰恰被 GRPO**系统性压制**。
## 解决方案
[[dgae|DGAE]] 用 MAD 替代 std
$$\sum_{i=1}^{G} |\hat{A}_{DG,i}| = G \quad \text{(恒定)}$$
无论 p 是多少每个问题获得相同的总更新幅度Theorem 2
## 证明要点
- GRAE 的 std 分母引入 $\sqrt{p(1-p)}$ 因子
- DGAE 的 MAD 分母恰好消除 $p(1-p)$ 因子
- MAD = 2p(1-p) 对于二元奖励 → 归一化后总幅度 = G
## 相关概念
- [[grpo]] — 存在此问题的基线方法
- [[dgae|DGAE]] — 解决方案
- [[dgpo|DGPO]] — 算法实现
- [[dai-mathforge-2026|论文页面]]