3.3 KiB
3.3 KiB
title, authors, year, arxiv, venue, type, created, tags, sources
| title | authors | year | arxiv | venue | type | created | tags | sources | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| MathForge: Harder Is Better — 难度感知GRPO与多维度问题改写 |
|
2026 | 2601.20614 | ICLR 2026 | paper | 2026-05-12 |
|
|
MathForge: Harder Is Better
"Harder is Better" — 从算法和数据双重视角,通过聚焦更困难的问题来提升数学推理能力。
核心问题
RLVR(可验证奖励强化学习)中,现有方法系统性忽视了更困难的问题:
- 算法层面:GRPO 的优势估计函数引入隐含不平衡 — 更新幅度在准确率 p=0.5 时最大,对更难(p 接近 0)和更简单(p 接近 1)的问题都被抑制
- 数据层面:数据增强主要关注多样性,没有系统性地提高内在难度
核心洞察:难但可解的问题是最理想的训练材料 — 它们暴露模型的不完全掌握,同时提供至少一个正确答案用于定向学习。
MathForge 框架
MathForge 是一个双轨协同框架:
算法轨:dgpo
数据轨:mqr
三种策略改写问题,同时保持原始答案不变:
| 策略 | 描述 | 挑战的能力 |
|---|---|---|
| Background | 添加叙事背景(噪声) | 从噪声中识别关键数学信息 |
| Term | 发明抽象数学术语 | 理解抽象数学概念 |
| Sub-Problem | 嵌套独立子问题 | 多步推理与跨域知识 |
关键理论发现
Theorem 1: GRPO 的总更新幅度 $\propto 2G\sqrt{p(1-p)}$,在 p=0.5 时达到最大值 → 难度不平衡,详见 update-magnitude-imbalance
Theorem 2: DGAE 的总更新幅度恒为 G → 难度平衡
实验结果
在 Qwen2.5-Math-7B 上的 6 个基准测试结果:
| 方法 | 平均分 | ΔGRPO |
|---|---|---|
| GRPO | 37.61 | — |
| DGPO | 39.79 | +2.18 |
| MQR | 41.04 | +3.43 |
| MathForge | 42.17 | +4.56 |
跨模型验证:在 4 个不同模型族(Qwen2.5-Math-1.5B, Qwen2.5-3B, DeepSeek-Math-7B)上均取得一致增益,DGPO+MQR 提升范围 2.86–4.45%。
关键概念网络
MathForge
├── 算法轨道
│ ├── [[dgpo]]: 难度感知 GRPO
│ │ ├── [[dgae]]: MAD 归一化 → 平衡更新幅度
│ │ └── [[dqw]]: Softmax 难度加权 → 优先困难问题
│ └── [[grpo]]: 基线方法(存在 [[update-magnitude-imbalance|隐含不平衡]])
├── 数据轨道
│ └── [[mqr]]: 多维度问题改写
│ └── [[math-question-reformulation]]: Background / Term / Sub-Problem
└── 理论基础
└── [[rlvr-unified-framework]]: 可验证奖励 RL 训练范式
论文信息
- arXiv: 2601.20614
- 代码: AMAP-ML/MathForge
- 机构: 中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学