20260514:增加新内容
This commit is contained in:
56
concepts/update-magnitude-imbalance.md
Normal file
56
concepts/update-magnitude-imbalance.md
Normal file
@@ -0,0 +1,56 @@
|
||||
---
|
||||
title: "GRPO 更新幅度不平衡"
|
||||
created: 2026-05-12
|
||||
updated: 2026-05-12
|
||||
type: concept
|
||||
tags: ["grpo", "reinforcement-learning", "theoretical-analysis"]
|
||||
sources: ["arxiv:2601.20614"]
|
||||
---
|
||||
|
||||
# GRPO 更新幅度不平衡
|
||||
|
||||
**更新幅度不平衡** 是 [[grpo|GRPO]] 中被 Dai et al. (2026) 揭示并证明的一个关键理论缺陷:GRPO 的优势估计(GRAE)导致策略更新幅度对难度不同的问题**不均匀分布**。
|
||||
|
||||
## Theorem 1(GRPO 更新幅度)
|
||||
|
||||
给定问题 q 的 G 个响应,每个获得二元准确率奖励 ri ∈ {0,1},准确率为 p:
|
||||
|
||||
$$\sum_{i=1}^{G} |\hat{A}_{GR,i}| = 2G\sqrt{p(1-p)}$$
|
||||
|
||||
该函数在 p = 0.5 时达到**最大值**,在 p → 0 或 p → 1 时趋近于 0。
|
||||
|
||||
## 含义分析
|
||||
|
||||
- **p ≈ 0**(极难题):更新幅度接近 0 → **最需要学习的问题反而被忽视**
|
||||
- **p = 0.5**(中等题):更新幅度最大 → **中等难度问题主导训练**
|
||||
- **p ≈ 1**(简单题):更新幅度接近 0 → 合理(模型已掌握)
|
||||
|
||||
## 为什么这是个问题?
|
||||
|
||||
p 接近 0 但非 0 的问题(如 p=0.1)是**最理想的训练材料**:
|
||||
- 暴露模型的不完全掌握(不是完全不会)
|
||||
- 提供至少一个正确答案用于定向学习
|
||||
- 掌握更难问题可能提升更简单问题的表现(compositionality)
|
||||
|
||||
但这些问题的更新幅度恰恰被 GRPO**系统性压制**。
|
||||
|
||||
## 解决方案
|
||||
|
||||
[[dgae|DGAE]] 用 MAD 替代 std:
|
||||
|
||||
$$\sum_{i=1}^{G} |\hat{A}_{DG,i}| = G \quad \text{(恒定)}$$
|
||||
|
||||
无论 p 是多少,每个问题获得相同的总更新幅度(Theorem 2)。
|
||||
|
||||
## 证明要点
|
||||
|
||||
- GRAE 的 std 分母引入 $\sqrt{p(1-p)}$ 因子
|
||||
- DGAE 的 MAD 分母恰好消除 $p(1-p)$ 因子
|
||||
- MAD = 2p(1-p) 对于二元奖励 → 归一化后总幅度 = G
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[grpo]] — 存在此问题的基线方法
|
||||
- [[dgae|DGAE]] — 解决方案
|
||||
- [[dgpo|DGPO]] — 算法实现
|
||||
- [[dai-mathforge-2026|论文页面]]
|
||||
Reference in New Issue
Block a user