SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.9 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

GRPO 更新幅度不平衡

2026-05-12

2026-05-12

concept

grpo

reinforcement-learning

theoretical-analysis

arxiv:2601.20614

GRPO 更新幅度不平衡

更新幅度不平衡 是 grpo 中被 Dai et al. (2026) 揭示并证明的一个关键理论缺陷：GRPO 的优势估计（GRAE）导致策略更新幅度对难度不同的问题不均匀分布。

Theorem 1（GRPO 更新幅度）

给定问题 q 的 G 个响应，每个获得二元准确率奖励 ri ∈ {0,1}，准确率为 p：

\sum_{i=1}^{G} |\hat{A}_{GR,i}| = 2G\sqrt{p(1-p)}

该函数在 p = 0.5 时达到最大值，在 p → 0 或 p → 1 时趋近于 0。

含义分析

p ≈ 0（极难题）：更新幅度接近 0 → 最需要学习的问题反而被忽视
p = 0.5（中等题）：更新幅度最大 → 中等难度问题主导训练
p ≈ 1（简单题）：更新幅度接近 0 → 合理（模型已掌握）

为什么这是个问题？

p 接近 0 但非 0 的问题（如 p=0.1）是最理想的训练材料：

暴露模型的不完全掌握（不是完全不会）
提供至少一个正确答案用于定向学习
掌握更难问题可能提升更简单问题的表现（compositionality）

但这些问题的更新幅度恰恰被 GRPO系统性压制。

解决方案

dgae 用 MAD 替代 std：

\sum_{i=1}^{G} |\hat{A}_{DG,i}| = G \quad \text{（恒定）}

无论 p 是多少，每个问题获得相同的总更新幅度（Theorem 2）。

证明要点

GRAE 的 std 分母引入 \sqrt{p(1-p)} 因子
DGAE 的 MAD 分母恰好消除 p(1-p) 因子
MAD = 2p(1-p) 对于二元奖励 → 归一化后总幅度 = G

相关概念

grpo — 存在此问题的基线方法
dgae — 解决方案
dgpo — 算法实现
dai-mathforge-2026