1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| MathForge 框架 | 2026-05-12 | 2026-05-12 | concept |
|
|
MathForge 框架
MathForge 是一个双轨协同框架,通过从算法和数据两个层面聚焦更困难的问题来提升 LLM 的数学推理能力。核心哲学:"Harder is Better"。
双轨架构
MathForge
├── 算法轨:[[dgpo|DGPO]](优化学习过程)
│ ├── [[dgae|DGAE]]: MAD 归一化 → 平衡更新幅度
│ └── [[dqw|DQW]]: Softmax 加权 → 优先困难问题
│
└── 数据轨:[[mqr|MQR]](扩展数据边界)
└── [[math-question-reformulation|三维改写]]: Background / Term / Sub-Problem
协同循环
MQR 从数据侧扩展新的能力边界,DGPO 在算法侧高效学习这些 augmented data,形成正反馈闭环:
ext{MQR} \rightarrow \text{更难的问题} \rightarrow \text{DGPO 优先学习} \rightarrow \text{能力提升} \rightarrow \text{MQR}...
关键实验结果
- Qwen2.5-Math-7B 上平均 +4.56% over GRPO(6 基准平均 42.17%)
- 跨 4 个模型族(1.5B–7B)一致增益 2.86–4.45%
- DGPO 单独使用 +2.18%,MQR 单独使用 +3.43%,组合效果最佳
设计原则
- 平衡先于加权:先用 DGAE 消除 GRPO 的更新幅度不平衡,再用 DQW 显式加权
- 答案保持约束:MQR 所有改写必须保持原始答案,避免重新生成解答
- valid token-level loss averaging:仅对有效问题(非全对/全错)计算损失
相关概念
- dgpo — 算法核心
- mqr — 数据核心
- grpo — 基线方法
- rlvr-unified-framework — 训练范式
- update-magnitude-imbalance — 理论发现
- dai-mathforge-2026