SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.8 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

MathForge 框架

2026-05-12

2026-05-12

concept

mathematical-reasoning

rlvr

grpo

difficulty-aware

arxiv:2601.20614

MathForge 框架

MathForge 是一个双轨协同框架，通过从算法和数据两个层面聚焦更困难的问题来提升 LLM 的数学推理能力。核心哲学："Harder is Better"。

双轨架构

MathForge
├── 算法轨：[[dgpo|DGPO]]（优化学习过程）
│   ├── [[dgae|DGAE]]: MAD 归一化 → 平衡更新幅度
│   └── [[dqw|DQW]]: Softmax 加权 → 优先困难问题
│
└── 数据轨：[[mqr|MQR]]（扩展数据边界）
    └── [[math-question-reformulation|三维改写]]: Background / Term / Sub-Problem

协同循环

MQR 从数据侧扩展新的能力边界，DGPO 在算法侧高效学习这些 augmented data，形成正反馈闭环：

	ext{MQR} \rightarrow \text{更难的问题} \rightarrow \text{DGPO 优先学习} \rightarrow \text{能力提升} \rightarrow \text{MQR}...

关键实验结果

Qwen2.5-Math-7B 上平均 +4.56% over GRPO（6 基准平均 42.17%）
跨 4 个模型族（1.5B–7B）一致增益 2.86–4.45%
DGPO 单独使用 +2.18%，MQR 单独使用 +3.43%，组合效果最佳

设计原则

平衡先于加权：先用 DGAE 消除 GRPO 的更新幅度不平衡，再用 DQW 显式加权
答案保持约束：MQR 所有改写必须保持原始答案，避免重新生成解答
valid token-level loss averaging：仅对有效问题（非全对/全错）计算损失

相关概念

dgpo — 算法核心
mqr — 数据核心
grpo — 基线方法
rlvr-unified-framework — 训练范式
update-magnitude-imbalance — 理论发现
dai-mathforge-2026