Files
myWiki/concepts/mathforge.md

51 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "MathForge 框架"
created: 2026-05-12
updated: 2026-05-12
type: concept
tags: ["mathematical-reasoning", "rlvr", "grpo", "difficulty-aware"]
sources: ["arxiv:2601.20614"]
---
# MathForge 框架
**MathForge** 是一个双轨协同框架,通过从算法和数据两个层面聚焦更困难的问题来提升 LLM 的数学推理能力。核心哲学:**"Harder is Better"**。
## 双轨架构
```
MathForge
├── 算法轨:[[dgpo|DGPO]](优化学习过程)
│ ├── [[dgae|DGAE]]: MAD 归一化 → 平衡更新幅度
│ └── [[dqw|DQW]]: Softmax 加权 → 优先困难问题
└── 数据轨:[[mqr|MQR]](扩展数据边界)
└── [[math-question-reformulation|三维改写]]: Background / Term / Sub-Problem
```
## 协同循环
MQR 从数据侧扩展新的能力边界DGPO 在算法侧高效学习这些 augmented data形成正反馈闭环
$$ ext{MQR} \rightarrow \text{更难的问题} \rightarrow \text{DGPO 优先学习} \rightarrow \text{能力提升} \rightarrow \text{MQR}...$$
## 关键实验结果
- Qwen2.5-Math-7B 上平均 +4.56% over GRPO6 基准平均 42.17%
- 跨 4 个模型族1.5B7B一致增益 2.864.45%
- DGPO 单独使用 +2.18%MQR 单独使用 +3.43%,组合效果最佳
## 设计原则
1. **平衡先于加权**:先用 DGAE 消除 GRPO 的更新幅度不平衡,再用 DQW 显式加权
2. **答案保持约束**MQR 所有改写必须保持原始答案,避免重新生成解答
3. **valid token-level loss averaging**:仅对有效问题(非全对/全错)计算损失
## 相关概念
- [[dgpo|DGPO]] — 算法核心
- [[mqr|MQR]] — 数据核心
- [[grpo]] — 基线方法
- [[rlvr-unified-framework]] — 训练范式
- [[update-magnitude-imbalance]] — 理论发现
- [[dai-mathforge-2026|论文页面]]