Files
myWiki/papers/dai-mathforge-2026.md

3.3 KiB
Raw Permalink Blame History

title, authors, year, arxiv, venue, type, created, tags, sources
title authors year arxiv venue type created tags sources
MathForge: Harder Is Better — 难度感知GRPO与多维度问题改写
Yanqi Dai
Yuxiang Ji
Xiao Zhang
Yong Wang
Xiangxiang Chu
Zhiwu Lu
2026 2601.20614 ICLR 2026 paper 2026-05-12
mathematical-reasoning
reinforcement-learning
grpo
difficulty-aware
data-augmentation
https://arxiv.org/abs/2601.20614
https://github.com/AMAP-ML/MathForge

MathForge: Harder Is Better

"Harder is Better" — 从算法和数据双重视角,通过聚焦更困难的问题来提升数学推理能力。

核心问题

RLVR可验证奖励强化学习现有方法系统性忽视了更困难的问题

  • 算法层面GRPO 的优势估计函数引入隐含不平衡 — 更新幅度在准确率 p=0.5 时最大对更难p 接近 0和更简单p 接近 1的问题都被抑制
  • 数据层面:数据增强主要关注多样性,没有系统性地提高内在难度

核心洞察:难但可解的问题是最理想的训练材料 — 它们暴露模型的不完全掌握,同时提供至少一个正确答案用于定向学习。

MathForge 框架

MathForge 是一个双轨协同框架

算法轨:dgpo

  1. dgae:用 MAD平均绝对偏差替代 std 作为归一化分母,使得每个问题的总更新幅度恒为 G与准确率无关
  2. dqw:用 softmax 温度加权显式优先学习更难的问题

数据轨:mqr

三种策略改写问题,同时保持原始答案不变

策略 描述 挑战的能力
Background 添加叙事背景(噪声) 从噪声中识别关键数学信息
Term 发明抽象数学术语 理解抽象数学概念
Sub-Problem 嵌套独立子问题 多步推理与跨域知识

关键理论发现

Theorem 1: GRPO 的总更新幅度 $\propto 2G\sqrt{p(1-p)}$,在 p=0.5 时达到最大值 → 难度不平衡,详见 update-magnitude-imbalance

Theorem 2: DGAE 的总更新幅度恒为 G → 难度平衡

实验结果

在 Qwen2.5-Math-7B 上的 6 个基准测试结果:

方法 平均分 ΔGRPO
GRPO 37.61
DGPO 39.79 +2.18
MQR 41.04 +3.43
MathForge 42.17 +4.56

跨模型验证:在 4 个不同模型族Qwen2.5-Math-1.5B, Qwen2.5-3B, DeepSeek-Math-7B上均取得一致增益DGPO+MQR 提升范围 2.864.45%。

关键概念网络

MathForge
├── 算法轨道
│   ├── [[dgpo]]: 难度感知 GRPO
│   │   ├── [[dgae]]: MAD 归一化 → 平衡更新幅度
│   │   └── [[dqw]]: Softmax 难度加权 → 优先困难问题
│   └── [[grpo]]: 基线方法(存在 [[update-magnitude-imbalance|隐含不平衡]]
├── 数据轨道
│   └── [[mqr]]: 多维度问题改写
│       └── [[math-question-reformulation]]: Background / Term / Sub-Problem
└── 理论基础
    └── [[rlvr-unified-framework]]: 可验证奖励 RL 训练范式

论文信息