MathForge: Harder Is Better

"Harder is Better" — 从算法和数据双重视角，通过聚焦更困难的问题来提升数学推理能力。

核心问题

RLVR（可验证奖励强化学习）中，现有方法系统性忽视了更困难的问题：

算法层面：GRPO 的优势估计函数引入隐含不平衡 — 更新幅度在准确率 p=0.5 时最大，对更难（p 接近 0）和更简单（p 接近 1）的问题都被抑制
数据层面：数据增强主要关注多样性，没有系统性地提高内在难度

核心洞察：难但可解的问题是最理想的训练材料 — 它们暴露模型的不完全掌握，同时提供至少一个正确答案用于定向学习。

MathForge 框架

MathForge 是一个双轨协同框架：

算法轨：dgpo

dgae：用 MAD（平均绝对偏差）替代 std 作为归一化分母，使得每个问题的总更新幅度恒为 G（与准确率无关）
dqw：用 softmax 温度加权显式优先学习更难的问题

数据轨：mqr

三种策略改写问题，同时保持原始答案不变：

策略	描述	挑战的能力
Background	添加叙事背景（噪声）	从噪声中识别关键数学信息
Term	发明抽象数学术语	理解抽象数学概念
Sub-Problem	嵌套独立子问题	多步推理与跨域知识

关键理论发现

Theorem 1: GRPO 的总更新幅度 $\propto 2G\sqrt{p(1-p)}$，在 p=0.5 时达到最大值 → 难度不平衡，详见 update-magnitude-imbalance

Theorem 2: DGAE 的总更新幅度恒为 G → 难度平衡

实验结果

在 Qwen2.5-Math-7B 上的 6 个基准测试结果：

方法	平均分	ΔGRPO
GRPO	37.61	—
DGPO	39.79	+2.18
MQR	41.04	+3.43
MathForge	42.17	+4.56

跨模型验证：在 4 个不同模型族（Qwen2.5-Math-1.5B, Qwen2.5-3B, DeepSeek-Math-7B）上均取得一致增益，DGPO+MQR 提升范围 2.86–4.45%。

关键概念网络

MathForge
├── 算法轨道
│   ├── [[dgpo]]: 难度感知 GRPO
│   │   ├── [[dgae]]: MAD 归一化 → 平衡更新幅度
│   │   └── [[dqw]]: Softmax 难度加权 → 优先困难问题
│   └── [[grpo]]: 基线方法（存在 [[update-magnitude-imbalance|隐含不平衡]]）
├── 数据轨道
│   └── [[mqr]]: 多维度问题改写
│       └── [[math-question-reformulation]]: Background / Term / Sub-Problem
└── 理论基础
    └── [[rlvr-unified-framework]]: 可验证奖励 RL 训练范式

论文信息

arXiv: 2601.20614
代码: AMAP-ML/MathForge
机构: 中国人民大学 × 阿里巴巴 AMAP × 厦门大学 × 大连理工大学

3.3 KiB Raw Blame History Unescape Escape