20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/reviews/mathforge-review-20260512.md
+++ b/reviews/mathforge-review-20260512.md
@@ -0,0 +1,91 @@
+---
+title: "MathForge Review — 2026-05-12"
+created: 2026-05-12
+type: review
+sources: ["arxiv:2601.20614"]
+---
+
+# MathForge: Harder Is Better — 集成 Review
+
+📌 **基本信息**
+- 论文：*Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation*
+- 作者：Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu
+- 机构：中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学
+- 发表：ICLR 2026
+- arXiv：2601.20614
+- 代码：[AMAP-ML/MathForge](https://github.com/AMAP-ML/MathForge)
+
+---
+
+🎯 **核心概念**
+
+1. **[[update-magnitude-imbalance|GRPO 更新幅度不平衡]]** — GRPO 的优势估计（GRAE）导致策略更新幅度依赖准确率 p，在 p=0.5 时最大，对更难（p→0）和更简单（p→1）的问题都被抑制。这是本文揭示的核心理论缺陷。
+
+2. **[[dgpo|DGPO]]（难度感知 GRPO）** — 两步修复：先用 [[dgae|DGAE]] 以 MAD 替代 std 平衡更新幅度（Theorem 2），再用 [[dqw|DQW]] 以 softmax 温度加权显式优先困难问题。
+
+3. **[[mqr|MQR]]（多维度问题改写）** — 通过三种策略（Background/Term/Sub-Problem）系统性提高训练数据难度，同时保持原始答案不变（97-99% 保持率），消除重新生成解答的需求。
+
+4. **[[mathforge|MathForge]] 协同循环** — MQR 扩展数据的能力边界 → DGPO 优先学习更难问题 → 能力提升 → MQR 继续扩展边界……形成正反馈训练循环。
+
+---
+
+🔗 **概念网络**
+
+```
+                   [[rlvr-unified-framework]]
+                           ↑ 训练范式
+                   ┌───────┴───────┐
+                   │               │
+              [[grpo]]         [[mathforge]]
+              (基线)          (Harder is Better)
+              ↑缺陷              ├── 算法轨
+      [[update-magnitude-         │   └── [[dgpo]]
+         imbalance]]              │       ├── [[dgae]]: MAD 归一化
+              ↓修复               │       └── [[dqw]]: Softmax 加权
+         [[dgae]] ←───────────    │
+                                  └── 数据轨
+                                      └── [[mqr]]
+                                          └── [[math-question-reformulation]]
+                                              (Background/Term/Sub-Problem)
+```
+
+- **核心连接**：update-magnitude-imbalance → DGAE → DQW → DGPO ↔ MQR → MathForge
+- **扩展网络**：连接了现有 RLVR 概念（rlvr-unified-framework, unsupervised-rlvr）
+- **新增概念**：7 个全新概念 + 1 个框架概念（grpo 为必要前置）
+
+---
+
+📚 **Wiki 集成**
+
+| 类型 | 数量 | 描述 |
+|------|------|------|
+| 论文页面 | 1 | [[dai-mathforge-2026]] |
+| 原始存档 | 1 | `raw/papers/dai-mathforge-2026.md` |
+| 概念页面 | 8 | [[grpo]], [[mathforge]], [[dgpo]], [[dgae]], [[dqw]], [[mqr]], [[update-magnitude-imbalance]], [[math-question-reformulation]] |
+| Review 报告 | 1 | 本文件 |
+| **总计** | **11 页**（含 raw） | |
+| 总规模 | 233 → **254 页**（index rebuild 发现 21 个未收录页面） | |
+| 链接完整性 | ✅ 0 断链 | |
+
+---
+
+💡 **关键洞察**
+
+1. **GRPO 的"反直觉"缺陷**：GRPO 被 DeepSeek-R1 和几乎所有后续 RLVR 工作广泛采用，但本文从数学上严格证明其优势估计函数导致对最难问题（p 接近 0 但非 0）的更新幅度系统性偏低——而这恰恰是最需要训练的信号。这个发现的价值不亚于解法本身。
+
+2. **Balance-then-Reweight 的设计哲学**：DGPO 先消除 GRPO 的隐式不平衡（DGAE），再叠加显式难度加权（DQW）——这种"两步拆解"比 GRPO-AD 的优势直接重加权具有更好的可解释性和可组合性。DGPO 可与 GP6、DAPO、GSPO 等方法兼容组合（见 Appendix G）。
+
+3. **答案保持约束的巧妙之处**：MQR 要求所有改写保持原始答案，这看似限制性约束，实则一举三得——避免解答生成开销、保证 RLVR 奖励可靠性、failed reformulation 天然无害（全错=无梯度）。
+
+---
+
+📊 **实验亮点**
+
+| 模型 | GRPO | MathForge | Δ |
+|------|------|-----------|-----|
+| Qwen2.5-Math-7B | 37.61 | **42.17** | +4.56 |
+| Qwen2.5-Math-1.5B | 29.39 | **33.84** | +4.45 |
+| Qwen2.5-3B | 25.47 | **29.01** | +3.54 |
+| DeepSeek-Math-7B | 14.91 | **17.77** | +2.86 |
+
+跨 4 个模型族一致增益，MQR 数据增强总成本仅 $184。