63 lines
2.3 KiB
Markdown
63 lines
2.3 KiB
Markdown
---
|
||
title: "Multi-Aspect Question Reformulation (MQR)"
|
||
created: 2026-05-12
|
||
updated: 2026-05-12
|
||
type: concept
|
||
tags: ["data-augmentation", "mathematical-reasoning", "question-reformulation"]
|
||
sources: ["arxiv:2601.20614"]
|
||
---
|
||
|
||
# Multi-Aspect Question Reformulation (MQR)
|
||
|
||
**MQR** 是 [[mathforge|MathForge]] 框架的数据组件,通过多维度改写数学问题来系统性地**提高训练数据的内在难度**,同时保持原始答案不变。
|
||
|
||
## 核心约束
|
||
|
||
> **答案保持(Answer Preservation)**:所有改写必须保持原始 gold answer 不变。
|
||
|
||
这一约束的意义:
|
||
- 维持问题的数学逻辑核心
|
||
- **无需重新生成解答**(对 reformulator 模型要求极低)
|
||
- 保证 RLVR 训练中的奖励信号可靠性
|
||
|
||
## 三种改写策略
|
||
|
||
| 策略 | 操作 | 挑战的能力 | 答案保持率 |
|
||
|------|------|-----------|-----------|
|
||
| **Background** | 添加叙事背景(历史/文化/科幻等) | 从噪声中识别关键数学信息 | 99% |
|
||
| **Term** | 发明抽象数学术语定义核心概念 | 理解抽象数学概念 | 97% |
|
||
| **Sub-Problem** | 将数值条件转为独立子问题 | 多步推理与跨域知识 | 97% |
|
||
|
||
## 改写示例
|
||
|
||
**原题**:Bérengère 和 Emily 在巴黎买蛋糕,蛋糕 6 欧元,Emily 有 5 美元,汇率 1 欧元 = 1.25 美元,Bérengère 需付多少欧元?
|
||
|
||
**Background 改写**:添加蒙马特历史街区的故事背景,描述糕点店"Le Temps Sucré"和圣奥诺雷蛋糕……
|
||
|
||
**Term 改写**:定义"euro-gap" ϵ 为购买价格与持有资金之间的非负欧元差额……
|
||
|
||
**Sub-Problem 改写**:先求解 x+y=9, x²+y²=41 得到汇率比 r,再计算欧元贡献……
|
||
|
||
## Reforumulator 模型
|
||
|
||
默认使用 **OpenAI o3**,小型开源模型也可胜任。平均每题消耗:
|
||
- Input: 255 tokens
|
||
- Output reasoning: 820 tokens
|
||
- Output reformulated: 138 tokens
|
||
- MATH 数据集 22.5k 题的改写总成本 ≈ $184
|
||
|
||
## 与 DGPO 的协同
|
||
|
||
MQR 生成的更难问题**是 DGPO 的理想训练材料**:
|
||
- MQR 扩展数据的能力边界
|
||
- DGPO 优先学习这些更难的问题
|
||
- 形成正反馈训练循环
|
||
|
||
## 相关概念
|
||
|
||
- [[math-question-reformulation]] — 三种策略详解
|
||
- [[dgpo|DGPO]] — 算法组件
|
||
- [[mathforge]] — 完整框架
|
||
- [[rlvr-unified-framework]] — 训练范式
|
||
- [[dai-mathforge-2026|论文页面]]
|