20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/papers/dai-mathforge-2026.md
+++ b/papers/dai-mathforge-2026.md
@@ -0,0 +1,83 @@
+---
+title: "MathForge: Harder Is Better — 难度感知GRPO与多维度问题改写"
+authors: ["Yanqi Dai", "Yuxiang Ji", "Xiao Zhang", "Yong Wang", "Xiangxiang Chu", "Zhiwu Lu"]
+year: 2026
+arxiv: "2601.20614"
+venue: "ICLR 2026"
+type: "paper"
+created: 2026-05-12
+tags: ["mathematical-reasoning", "reinforcement-learning", "grpo", "difficulty-aware", "data-augmentation"]
+sources: ["https://arxiv.org/abs/2601.20614", "https://github.com/AMAP-ML/MathForge"]
+---
+
+# MathForge: Harder Is Better
+
+> **"Harder is Better"** — 从算法和数据双重视角，通过聚焦更困难的问题来提升数学推理能力。
+
+## 核心问题
+
+RLVR（可验证奖励强化学习）中，现有方法系统性**忽视了更困难的问题**：
+
+- **算法层面**：GRPO 的优势估计函数引入隐含不平衡 — 更新幅度在准确率 p=0.5 时最大，对更难（p 接近 0）和更简单（p 接近 1）的问题都被抑制
+- **数据层面**：数据增强主要关注多样性，没有系统性地**提高内在难度**
+
+**核心洞察**：难但可解的问题是最理想的训练材料 — 它们暴露模型的不完全掌握，同时提供至少一个正确答案用于定向学习。
+
+## MathForge 框架
+
+MathForge 是一个**双轨协同框架**：
+
+### 算法轨：[[dgpo|DGPO]]
+
+1. **[[dgae|DGAE]]**：用 MAD（平均绝对偏差）替代 std 作为归一化分母，使得每个问题的总更新幅度恒为 G（与准确率无关）
+2. **[[dqw|DQW]]**：用 softmax 温度加权显式优先学习更难的问题
+
+### 数据轨：[[mqr|MQR]]
+
+三种策略改写问题，同时**保持原始答案不变**：
+| 策略 | 描述 | 挑战的能力 |
+|------|------|-----------|
+| Background | 添加叙事背景（噪声） | 从噪声中识别关键数学信息 |
+| Term | 发明抽象数学术语 | 理解抽象数学概念 |
+| Sub-Problem | 嵌套独立子问题 | 多步推理与跨域知识 |
+
+## 关键理论发现
+
+Theorem 1: GRPO 的总更新幅度 $\propto 2G\sqrt{p(1-p)}$，在 p=0.5 时达到最大值 → **难度不平衡**，详见 [[update-magnitude-imbalance]]
+
+Theorem 2: DGAE 的总更新幅度恒为 G → **难度平衡**
+
+## 实验结果
+
+在 Qwen2.5-Math-7B 上的 6 个基准测试结果：
+
+| 方法 | 平均分 | ΔGRPO |
+|------|--------|-------|
+| GRPO | 37.61 | — |
+| DGPO | 39.79 | +2.18 |
+| MQR | 41.04 | +3.43 |
+| **MathForge** | **42.17** | **+4.56** |
+
+跨模型验证：在 4 个不同模型族（Qwen2.5-Math-1.5B, Qwen2.5-3B, DeepSeek-Math-7B）上均取得一致增益，DGPO+MQR 提升范围 2.86–4.45%。
+
+## 关键概念网络
+
+```
+MathForge
+├── 算法轨道
+│   ├── [[dgpo]]: 难度感知 GRPO
+│   │   ├── [[dgae]]: MAD 归一化 → 平衡更新幅度
+│   │   └── [[dqw]]: Softmax 难度加权 → 优先困难问题
+│   └── [[grpo]]: 基线方法（存在 [[update-magnitude-imbalance|隐含不平衡]]）
+├── 数据轨道
+│   └── [[mqr]]: 多维度问题改写
+│       └── [[math-question-reformulation]]: Background / Term / Sub-Problem
+└── 理论基础
+    └── [[rlvr-unified-framework]]: 可验证奖励 RL 训练范式
+```
+
+## 论文信息
+
+- **arXiv**: [2601.20614](https://arxiv.org/abs/2601.20614)
+- **代码**: [AMAP-ML/MathForge](https://github.com/AMAP-ML/MathForge)
+- **机构**: 中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学