Files
myWiki/papers/dai-mathforge-2026.md

84 lines
3.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "MathForge: Harder Is Better — 难度感知GRPO与多维度问题改写"
authors: ["Yanqi Dai", "Yuxiang Ji", "Xiao Zhang", "Yong Wang", "Xiangxiang Chu", "Zhiwu Lu"]
year: 2026
arxiv: "2601.20614"
venue: "ICLR 2026"
type: "paper"
created: 2026-05-12
tags: ["mathematical-reasoning", "reinforcement-learning", "grpo", "difficulty-aware", "data-augmentation"]
sources: ["https://arxiv.org/abs/2601.20614", "https://github.com/AMAP-ML/MathForge"]
---
# MathForge: Harder Is Better
> **"Harder is Better"** — 从算法和数据双重视角,通过聚焦更困难的问题来提升数学推理能力。
## 核心问题
RLVR可验证奖励强化学习现有方法系统性**忽视了更困难的问题**
- **算法层面**GRPO 的优势估计函数引入隐含不平衡 — 更新幅度在准确率 p=0.5 时最大对更难p 接近 0和更简单p 接近 1的问题都被抑制
- **数据层面**:数据增强主要关注多样性,没有系统性地**提高内在难度**
**核心洞察**:难但可解的问题是最理想的训练材料 — 它们暴露模型的不完全掌握,同时提供至少一个正确答案用于定向学习。
## MathForge 框架
MathForge 是一个**双轨协同框架**
### 算法轨:[[dgpo|DGPO]]
1. **[[dgae|DGAE]]**:用 MAD平均绝对偏差替代 std 作为归一化分母,使得每个问题的总更新幅度恒为 G与准确率无关
2. **[[dqw|DQW]]**:用 softmax 温度加权显式优先学习更难的问题
### 数据轨:[[mqr|MQR]]
三种策略改写问题,同时**保持原始答案不变**
| 策略 | 描述 | 挑战的能力 |
|------|------|-----------|
| Background | 添加叙事背景(噪声) | 从噪声中识别关键数学信息 |
| Term | 发明抽象数学术语 | 理解抽象数学概念 |
| Sub-Problem | 嵌套独立子问题 | 多步推理与跨域知识 |
## 关键理论发现
Theorem 1: GRPO 的总更新幅度 $\propto 2G\sqrt{p(1-p)}$,在 p=0.5 时达到最大值 → **难度不平衡**,详见 [[update-magnitude-imbalance]]
Theorem 2: DGAE 的总更新幅度恒为 G → **难度平衡**
## 实验结果
在 Qwen2.5-Math-7B 上的 6 个基准测试结果:
| 方法 | 平均分 | ΔGRPO |
|------|--------|-------|
| GRPO | 37.61 | — |
| DGPO | 39.79 | +2.18 |
| MQR | 41.04 | +3.43 |
| **MathForge** | **42.17** | **+4.56** |
跨模型验证:在 4 个不同模型族Qwen2.5-Math-1.5B, Qwen2.5-3B, DeepSeek-Math-7B上均取得一致增益DGPO+MQR 提升范围 2.864.45%。
## 关键概念网络
```
MathForge
├── 算法轨道
│ ├── [[dgpo]]: 难度感知 GRPO
│ │ ├── [[dgae]]: MAD 归一化 → 平衡更新幅度
│ │ └── [[dqw]]: Softmax 难度加权 → 优先困难问题
│ └── [[grpo]]: 基线方法(存在 [[update-magnitude-imbalance|隐含不平衡]]
├── 数据轨道
│ └── [[mqr]]: 多维度问题改写
│ └── [[math-question-reformulation]]: Background / Term / Sub-Problem
└── 理论基础
└── [[rlvr-unified-framework]]: 可验证奖励 RL 训练范式
```
## 论文信息
- **arXiv**: [2601.20614](https://arxiv.org/abs/2601.20614)
- **代码**: [AMAP-ML/MathForge](https://github.com/AMAP-ML/MathForge)
- **机构**: 中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学