Files
myWiki/concepts/mqr.md

63 lines
2.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Multi-Aspect Question Reformulation (MQR)"
created: 2026-05-12
updated: 2026-05-12
type: concept
tags: ["data-augmentation", "mathematical-reasoning", "question-reformulation"]
sources: ["arxiv:2601.20614"]
---
# Multi-Aspect Question Reformulation (MQR)
**MQR** 是 [[mathforge|MathForge]] 框架的数据组件,通过多维度改写数学问题来系统性地**提高训练数据的内在难度**,同时保持原始答案不变。
## 核心约束
> **答案保持Answer Preservation**:所有改写必须保持原始 gold answer 不变。
这一约束的意义:
- 维持问题的数学逻辑核心
- **无需重新生成解答**(对 reformulator 模型要求极低)
- 保证 RLVR 训练中的奖励信号可靠性
## 三种改写策略
| 策略 | 操作 | 挑战的能力 | 答案保持率 |
|------|------|-----------|-----------|
| **Background** | 添加叙事背景(历史/文化/科幻等) | 从噪声中识别关键数学信息 | 99% |
| **Term** | 发明抽象数学术语定义核心概念 | 理解抽象数学概念 | 97% |
| **Sub-Problem** | 将数值条件转为独立子问题 | 多步推理与跨域知识 | 97% |
## 改写示例
**原题**Bérengère 和 Emily 在巴黎买蛋糕,蛋糕 6 欧元Emily 有 5 美元,汇率 1 欧元 = 1.25 美元Bérengère 需付多少欧元?
**Background 改写**:添加蒙马特历史街区的故事背景,描述糕点店"Le Temps Sucré"和圣奥诺雷蛋糕……
**Term 改写**:定义"euro-gap" ϵ 为购买价格与持有资金之间的非负欧元差额……
**Sub-Problem 改写**:先求解 x+y=9, x²+y²=41 得到汇率比 r再计算欧元贡献……
## Reforumulator 模型
默认使用 **OpenAI o3**,小型开源模型也可胜任。平均每题消耗:
- Input: 255 tokens
- Output reasoning: 820 tokens
- Output reformulated: 138 tokens
- MATH 数据集 22.5k 题的改写总成本 ≈ $184
## 与 DGPO 的协同
MQR 生成的更难问题**是 DGPO 的理想训练材料**
- MQR 扩展数据的能力边界
- DGPO 优先学习这些更难的问题
- 形成正反馈训练循环
## 相关概念
- [[math-question-reformulation]] — 三种策略详解
- [[dgpo|DGPO]] — 算法组件
- [[mathforge]] — 完整框架
- [[rlvr-unified-framework]] — 训练范式
- [[dai-mathforge-2026|论文页面]]