MathForge: Harder Is Better — 集成 Review

📌 基本信息

论文：Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
作者：Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu
机构：中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学
发表：ICLR 2026
arXiv：2601.20614
代码：AMAP-ML/MathForge

🎯 核心概念

update-magnitude-imbalance — GRPO 的优势估计（GRAE）导致策略更新幅度依赖准确率 p，在 p=0.5 时最大，对更难（p→0）和更简单（p→1）的问题都被抑制。这是本文揭示的核心理论缺陷。
dgpo（难度感知 GRPO） — 两步修复：先用 dgae 以 MAD 替代 std 平衡更新幅度（Theorem 2），再用 dqw 以 softmax 温度加权显式优先困难问题。
mqr（多维度问题改写） — 通过三种策略（Background/Term/Sub-Problem）系统性提高训练数据难度，同时保持原始答案不变（97-99% 保持率），消除重新生成解答的需求。
mathforge 协同循环 — MQR 扩展数据的能力边界 → DGPO 优先学习更难问题 → 能力提升 → MQR 继续扩展边界……形成正反馈训练循环。

🔗 概念网络

                   [[rlvr-unified-framework]]
                           ↑ 训练范式
                   ┌───────┴───────┐
                   │               │
              [[grpo]]         [[mathforge]]
              (基线)          (Harder is Better)
              ↑缺陷              ├── 算法轨
      [[update-magnitude-         │   └── [[dgpo]]
         imbalance]]              │       ├── [[dgae]]: MAD 归一化
              ↓修复               │       └── [[dqw]]: Softmax 加权
         [[dgae]] ←───────────    │
                                  └── 数据轨
                                      └── [[mqr]]
                                          └── [[math-question-reformulation]]
                                              (Background/Term/Sub-Problem)

核心连接：update-magnitude-imbalance → DGAE → DQW → DGPO ↔ MQR → MathForge
扩展网络：连接了现有 RLVR 概念（rlvr-unified-framework, unsupervised-rlvr）
新增概念：7 个全新概念 + 1 个框架概念（grpo 为必要前置）

📚 Wiki 集成

类型	数量	描述
论文页面	1	dai-mathforge-2026
原始存档	1	`raw/papers/dai-mathforge-2026.md`
概念页面	8	grpo, mathforge, dgpo, dgae, dqw, mqr, update-magnitude-imbalance, math-question-reformulation
Review 报告	1	本文件
总计	11 页（含 raw）
总规模	233 → 254 页（index rebuild 发现 21 个未收录页面）
链接完整性	✅ 0 断链

💡 关键洞察

GRPO 的"反直觉"缺陷：GRPO 被 DeepSeek-R1 和几乎所有后续 RLVR 工作广泛采用，但本文从数学上严格证明其优势估计函数导致对最难问题（p 接近 0 但非 0）的更新幅度系统性偏低——而这恰恰是最需要训练的信号。这个发现的价值不亚于解法本身。
Balance-then-Reweight 的设计哲学：DGPO 先消除 GRPO 的隐式不平衡（DGAE），再叠加显式难度加权（DQW）——这种"两步拆解"比 GRPO-AD 的优势直接重加权具有更好的可解释性和可组合性。DGPO 可与 GP6、DAPO、GSPO 等方法兼容组合（见 Appendix G）。
答案保持约束的巧妙之处：MQR 要求所有改写保持原始答案，这看似限制性约束，实则一举三得——避免解答生成开销、保证 RLVR 奖励可靠性、failed reformulation 天然无害（全错=无梯度）。

📊 实验亮点

模型	GRPO	MathForge	Δ
Qwen2.5-Math-7B	37.61	42.17	+4.56
Qwen2.5-Math-1.5B	29.39	33.84	+4.45
Qwen2.5-3B	25.47	29.01	+3.54
DeepSeek-Math-7B	14.91	17.77	+2.86

跨 4 个模型族一致增益，MQR 数据增强总成本仅 $184。

4.5 KiB Raw Blame History Unescape Escape

MathForge: Harder Is Better — 集成 Review

4.5 KiB

Raw Blame History