20260514:增加新内容
This commit is contained in:
50
concepts/mathforge.md
Normal file
50
concepts/mathforge.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "MathForge 框架"
|
||||
created: 2026-05-12
|
||||
updated: 2026-05-12
|
||||
type: concept
|
||||
tags: ["mathematical-reasoning", "rlvr", "grpo", "difficulty-aware"]
|
||||
sources: ["arxiv:2601.20614"]
|
||||
---
|
||||
|
||||
# MathForge 框架
|
||||
|
||||
**MathForge** 是一个双轨协同框架,通过从算法和数据两个层面聚焦更困难的问题来提升 LLM 的数学推理能力。核心哲学:**"Harder is Better"**。
|
||||
|
||||
## 双轨架构
|
||||
|
||||
```
|
||||
MathForge
|
||||
├── 算法轨:[[dgpo|DGPO]](优化学习过程)
|
||||
│ ├── [[dgae|DGAE]]: MAD 归一化 → 平衡更新幅度
|
||||
│ └── [[dqw|DQW]]: Softmax 加权 → 优先困难问题
|
||||
│
|
||||
└── 数据轨:[[mqr|MQR]](扩展数据边界)
|
||||
└── [[math-question-reformulation|三维改写]]: Background / Term / Sub-Problem
|
||||
```
|
||||
|
||||
## 协同循环
|
||||
|
||||
MQR 从数据侧扩展新的能力边界,DGPO 在算法侧高效学习这些 augmented data,形成正反馈闭环:
|
||||
$$ ext{MQR} \rightarrow \text{更难的问题} \rightarrow \text{DGPO 优先学习} \rightarrow \text{能力提升} \rightarrow \text{MQR}...$$
|
||||
|
||||
## 关键实验结果
|
||||
|
||||
- Qwen2.5-Math-7B 上平均 +4.56% over GRPO(6 基准平均 42.17%)
|
||||
- 跨 4 个模型族(1.5B–7B)一致增益 2.86–4.45%
|
||||
- DGPO 单独使用 +2.18%,MQR 单独使用 +3.43%,组合效果最佳
|
||||
|
||||
## 设计原则
|
||||
|
||||
1. **平衡先于加权**:先用 DGAE 消除 GRPO 的更新幅度不平衡,再用 DQW 显式加权
|
||||
2. **答案保持约束**:MQR 所有改写必须保持原始答案,避免重新生成解答
|
||||
3. **valid token-level loss averaging**:仅对有效问题(非全对/全错)计算损失
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[dgpo|DGPO]] — 算法核心
|
||||
- [[mqr|MQR]] — 数据核心
|
||||
- [[grpo]] — 基线方法
|
||||
- [[rlvr-unified-framework]] — 训练范式
|
||||
- [[update-magnitude-imbalance]] — 理论发现
|
||||
- [[dai-mathforge-2026|论文页面]]
|
||||
Reference in New Issue
Block a user