20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/update-magnitude-imbalance.md
+++ b/concepts/update-magnitude-imbalance.md
@@ -0,0 +1,56 @@
+---
+title: "GRPO 更新幅度不平衡"
+created: 2026-05-12
+updated: 2026-05-12
+type: concept
+tags: ["grpo", "reinforcement-learning", "theoretical-analysis"]
+sources: ["arxiv:2601.20614"]
+---
+
+# GRPO 更新幅度不平衡
+
+**更新幅度不平衡** 是 [[grpo|GRPO]] 中被 Dai et al. (2026) 揭示并证明的一个关键理论缺陷：GRPO 的优势估计（GRAE）导致策略更新幅度对难度不同的问题**不均匀分布**。
+
+## Theorem 1（GRPO 更新幅度）
+
+给定问题 q 的 G 个响应，每个获得二元准确率奖励 ri ∈ {0,1}，准确率为 p：
+
+$$\sum_{i=1}^{G} |\hat{A}_{GR,i}| = 2G\sqrt{p(1-p)}$$
+
+该函数在 p = 0.5 时达到**最大值**，在 p → 0 或 p → 1 时趋近于 0。
+
+## 含义分析
+
+- **p ≈ 0**（极难题）：更新幅度接近 0 → **最需要学习的问题反而被忽视**
+- **p = 0.5**（中等题）：更新幅度最大 → **中等难度问题主导训练**
+- **p ≈ 1**（简单题）：更新幅度接近 0 → 合理（模型已掌握）
+
+## 为什么这是个问题？
+
+p 接近 0 但非 0 的问题（如 p=0.1）是**最理想的训练材料**：
+- 暴露模型的不完全掌握（不是完全不会）
+- 提供至少一个正确答案用于定向学习
+- 掌握更难问题可能提升更简单问题的表现（compositionality）
+
+但这些问题的更新幅度恰恰被 GRPO**系统性压制**。
+
+## 解决方案
+
+[[dgae|DGAE]] 用 MAD 替代 std：
+
+$$\sum_{i=1}^{G} |\hat{A}_{DG,i}| = G \quad \text{（恒定）}$$
+
+无论 p 是多少，每个问题获得相同的总更新幅度（Theorem 2）。
+
+## 证明要点
+
+- GRAE 的 std 分母引入 $\sqrt{p(1-p)}$ 因子
+- DGAE 的 MAD 分母恰好消除 $p(1-p)$ 因子
+- MAD = 2p(1-p) 对于二元奖励 → 归一化后总幅度 = G
+
+## 相关概念
+
+- [[grpo]] — 存在此问题的基线方法
+- [[dgae|DGAE]] — 解决方案
+- [[dgpo|DGPO]] — 算法实现
+- [[dai-mathforge-2026|论文页面]]