20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/mathforge.md
+++ b/concepts/mathforge.md
@@ -0,0 +1,50 @@
+---
+title: "MathForge 框架"
+created: 2026-05-12
+updated: 2026-05-12
+type: concept
+tags: ["mathematical-reasoning", "rlvr", "grpo", "difficulty-aware"]
+sources: ["arxiv:2601.20614"]
+---
+
+# MathForge 框架
+
+**MathForge** 是一个双轨协同框架，通过从算法和数据两个层面聚焦更困难的问题来提升 LLM 的数学推理能力。核心哲学：**"Harder is Better"**。
+
+## 双轨架构
+
+```
+MathForge
+├── 算法轨：[[dgpo|DGPO]]（优化学习过程）
+│   ├── [[dgae|DGAE]]: MAD 归一化 → 平衡更新幅度
+│   └── [[dqw|DQW]]: Softmax 加权 → 优先困难问题
+│
+└── 数据轨：[[mqr|MQR]]（扩展数据边界）
+    └── [[math-question-reformulation|三维改写]]: Background / Term / Sub-Problem
+```
+
+## 协同循环
+
+MQR 从数据侧扩展新的能力边界，DGPO 在算法侧高效学习这些 augmented data，形成正反馈闭环：
+$$	ext{MQR} \rightarrow \text{更难的问题} \rightarrow \text{DGPO 优先学习} \rightarrow \text{能力提升} \rightarrow \text{MQR}...$$
+
+## 关键实验结果
+
+- Qwen2.5-Math-7B 上平均 +4.56% over GRPO（6 基准平均 42.17%）
+- 跨 4 个模型族（1.5B–7B）一致增益 2.86–4.45%
+- DGPO 单独使用 +2.18%，MQR 单独使用 +3.43%，组合效果最佳
+
+## 设计原则
+
+1. **平衡先于加权**：先用 DGAE 消除 GRPO 的更新幅度不平衡，再用 DQW 显式加权
+2. **答案保持约束**：MQR 所有改写必须保持原始答案，避免重新生成解答
+3. **valid token-level loss averaging**：仅对有效问题（非全对/全错）计算损失
+
+## 相关概念
+
+- [[dgpo|DGPO]] — 算法核心
+- [[mqr|MQR]] — 数据核心
+- [[grpo]] — 基线方法
+- [[rlvr-unified-framework]] — 训练范式
+- [[update-magnitude-imbalance]] — 理论发现
+- [[dai-mathforge-2026|论文页面]]