myWiki/concepts/mqr.md

---
title: "Multi-Aspect Question Reformulation (MQR)"
created: 2026-05-12
updated: 2026-05-12
type: concept
tags: ["data-augmentation", "mathematical-reasoning", "question-reformulation"]
sources: ["arxiv:2601.20614"]
---

# Multi-Aspect Question Reformulation (MQR)

**MQR** 是 [[mathforge|MathForge]] 框架的数据组件，通过多维度改写数学问题来系统性地**提高训练数据的内在难度**，同时保持原始答案不变。

## 核心约束

> **答案保持（Answer Preservation）**：所有改写必须保持原始 gold answer 不变。

这一约束的意义：
- 维持问题的数学逻辑核心
- **无需重新生成解答**（对 reformulator 模型要求极低）
- 保证 RLVR 训练中的奖励信号可靠性

## 三种改写策略

| 策略 | 操作 | 挑战的能力 | 答案保持率 |
|------|------|-----------|-----------|
| **Background** | 添加叙事背景（历史/文化/科幻等） | 从噪声中识别关键数学信息 | 99% |
| **Term** | 发明抽象数学术语定义核心概念 | 理解抽象数学概念 | 97% |
| **Sub-Problem** | 将数值条件转为独立子问题 | 多步推理与跨域知识 | 97% |

## 改写示例

**原题**：Bérengère 和 Emily 在巴黎买蛋糕，蛋糕 6 欧元，Emily 有 5 美元，汇率 1 欧元 = 1.25 美元，Bérengère 需付多少欧元？

**Background 改写**：添加蒙马特历史街区的故事背景，描述糕点店"Le Temps Sucré"和圣奥诺雷蛋糕……

**Term 改写**：定义"euro-gap" ϵ 为购买价格与持有资金之间的非负欧元差额……

**Sub-Problem 改写**：先求解 x+y=9, x²+y²=41 得到汇率比 r，再计算欧元贡献……

## Reforumulator 模型

默认使用 **OpenAI o3**，小型开源模型也可胜任。平均每题消耗：
- Input: 255 tokens
- Output reasoning: 820 tokens
- Output reformulated: 138 tokens
- MATH 数据集 22.5k 题的改写总成本 ≈ $184

## 与 DGPO 的协同

MQR 生成的更难问题**是 DGPO 的理想训练材料**：
- MQR 扩展数据的能力边界
- DGPO 优先学习这些更难的问题
- 形成正反馈训练循环

## 相关概念

- [[math-question-reformulation]] — 三种策略详解
- [[dgpo|DGPO]] — 算法组件
- [[mathforge]] — 完整框架
- [[rlvr-unified-framework]] — 训练范式
- [[dai-mathforge-2026|论文页面]]