20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/mqr.md
+++ b/concepts/mqr.md
@@ -0,0 +1,62 @@
+---
+title: "Multi-Aspect Question Reformulation (MQR)"
+created: 2026-05-12
+updated: 2026-05-12
+type: concept
+tags: ["data-augmentation", "mathematical-reasoning", "question-reformulation"]
+sources: ["arxiv:2601.20614"]
+---
+
+# Multi-Aspect Question Reformulation (MQR)
+
+**MQR** 是 [[mathforge|MathForge]] 框架的数据组件，通过多维度改写数学问题来系统性地**提高训练数据的内在难度**，同时保持原始答案不变。
+
+## 核心约束
+
+> **答案保持（Answer Preservation）**：所有改写必须保持原始 gold answer 不变。
+
+这一约束的意义：
+- 维持问题的数学逻辑核心
+- **无需重新生成解答**（对 reformulator 模型要求极低）
+- 保证 RLVR 训练中的奖励信号可靠性
+
+## 三种改写策略
+
+| 策略 | 操作 | 挑战的能力 | 答案保持率 |
+|------|------|-----------|-----------|
+| **Background** | 添加叙事背景（历史/文化/科幻等） | 从噪声中识别关键数学信息 | 99% |
+| **Term** | 发明抽象数学术语定义核心概念 | 理解抽象数学概念 | 97% |
+| **Sub-Problem** | 将数值条件转为独立子问题 | 多步推理与跨域知识 | 97% |
+
+## 改写示例
+
+**原题**：Bérengère 和 Emily 在巴黎买蛋糕，蛋糕 6 欧元，Emily 有 5 美元，汇率 1 欧元 = 1.25 美元，Bérengère 需付多少欧元？
+
+**Background 改写**：添加蒙马特历史街区的故事背景，描述糕点店"Le Temps Sucré"和圣奥诺雷蛋糕……
+
+**Term 改写**：定义"euro-gap" ϵ 为购买价格与持有资金之间的非负欧元差额……
+
+**Sub-Problem 改写**：先求解 x+y=9, x²+y²=41 得到汇率比 r，再计算欧元贡献……
+
+## Reforumulator 模型
+
+默认使用 **OpenAI o3**，小型开源模型也可胜任。平均每题消耗：
+- Input: 255 tokens
+- Output reasoning: 820 tokens
+- Output reformulated: 138 tokens
+- MATH 数据集 22.5k 题的改写总成本 ≈ $184
+
+## 与 DGPO 的协同
+
+MQR 生成的更难问题**是 DGPO 的理想训练材料**：
+- MQR 扩展数据的能力边界
+- DGPO 优先学习这些更难的问题
+- 形成正反馈训练循环
+
+## 相关概念
+
+- [[math-question-reformulation]] — 三种策略详解
+- [[dgpo|DGPO]] — 算法组件
+- [[mathforge]] — 完整框架
+- [[rlvr-unified-framework]] — 训练范式
+- [[dai-mathforge-2026|论文页面]]