4.5 KiB
title, created, type, sources
| title | created | type | sources | |
|---|---|---|---|---|
| MathForge Review — 2026-05-12 | 2026-05-12 | review |
|
MathForge: Harder Is Better — 集成 Review
📌 基本信息
- 论文:Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
- 作者:Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu
- 机构:中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学
- 发表:ICLR 2026
- arXiv:2601.20614
- 代码:AMAP-ML/MathForge
🎯 核心概念
-
update-magnitude-imbalance — GRPO 的优势估计(GRAE)导致策略更新幅度依赖准确率 p,在 p=0.5 时最大,对更难(p→0)和更简单(p→1)的问题都被抑制。这是本文揭示的核心理论缺陷。
-
dgpo(难度感知 GRPO) — 两步修复:先用 dgae 以 MAD 替代 std 平衡更新幅度(Theorem 2),再用 dqw 以 softmax 温度加权显式优先困难问题。
-
mqr(多维度问题改写) — 通过三种策略(Background/Term/Sub-Problem)系统性提高训练数据难度,同时保持原始答案不变(97-99% 保持率),消除重新生成解答的需求。
-
mathforge 协同循环 — MQR 扩展数据的能力边界 → DGPO 优先学习更难问题 → 能力提升 → MQR 继续扩展边界……形成正反馈训练循环。
🔗 概念网络
[[rlvr-unified-framework]]
↑ 训练范式
┌───────┴───────┐
│ │
[[grpo]] [[mathforge]]
(基线) (Harder is Better)
↑缺陷 ├── 算法轨
[[update-magnitude- │ └── [[dgpo]]
imbalance]] │ ├── [[dgae]]: MAD 归一化
↓修复 │ └── [[dqw]]: Softmax 加权
[[dgae]] ←─────────── │
└── 数据轨
└── [[mqr]]
└── [[math-question-reformulation]]
(Background/Term/Sub-Problem)
- 核心连接:update-magnitude-imbalance → DGAE → DQW → DGPO ↔ MQR → MathForge
- 扩展网络:连接了现有 RLVR 概念(rlvr-unified-framework, unsupervised-rlvr)
- 新增概念:7 个全新概念 + 1 个框架概念(grpo 为必要前置)
📚 Wiki 集成
| 类型 | 数量 | 描述 |
|---|---|---|
| 论文页面 | 1 | dai-mathforge-2026 |
| 原始存档 | 1 | raw/papers/dai-mathforge-2026.md |
| 概念页面 | 8 | grpo, mathforge, dgpo, dgae, dqw, mqr, update-magnitude-imbalance, math-question-reformulation |
| Review 报告 | 1 | 本文件 |
| 总计 | 11 页(含 raw) | |
| 总规模 | 233 → 254 页(index rebuild 发现 21 个未收录页面) | |
| 链接完整性 | ✅ 0 断链 |
💡 关键洞察
-
GRPO 的"反直觉"缺陷:GRPO 被 DeepSeek-R1 和几乎所有后续 RLVR 工作广泛采用,但本文从数学上严格证明其优势估计函数导致对最难问题(p 接近 0 但非 0)的更新幅度系统性偏低——而这恰恰是最需要训练的信号。这个发现的价值不亚于解法本身。
-
Balance-then-Reweight 的设计哲学:DGPO 先消除 GRPO 的隐式不平衡(DGAE),再叠加显式难度加权(DQW)——这种"两步拆解"比 GRPO-AD 的优势直接重加权具有更好的可解释性和可组合性。DGPO 可与 GP6、DAPO、GSPO 等方法兼容组合(见 Appendix G)。
-
答案保持约束的巧妙之处:MQR 要求所有改写保持原始答案,这看似限制性约束,实则一举三得——避免解答生成开销、保证 RLVR 奖励可靠性、failed reformulation 天然无害(全错=无梯度)。
📊 实验亮点
| 模型 | GRPO | MathForge | Δ |
|---|---|---|---|
| Qwen2.5-Math-7B | 37.61 | 42.17 | +4.56 |
| Qwen2.5-Math-1.5B | 29.39 | 33.84 | +4.45 |
| Qwen2.5-3B | 25.47 | 29.01 | +3.54 |
| DeepSeek-Math-7B | 14.91 | 17.77 | +2.86 |
跨 4 个模型族一致增益,MQR 数据增强总成本仅 $184。