--- title: "Multi-Aspect Question Reformulation (MQR)" created: 2026-05-12 updated: 2026-05-12 type: concept tags: ["data-augmentation", "mathematical-reasoning", "question-reformulation"] sources: ["arxiv:2601.20614"] --- # Multi-Aspect Question Reformulation (MQR) **MQR** 是 [[mathforge|MathForge]] 框架的数据组件,通过多维度改写数学问题来系统性地**提高训练数据的内在难度**,同时保持原始答案不变。 ## 核心约束 > **答案保持(Answer Preservation)**:所有改写必须保持原始 gold answer 不变。 这一约束的意义: - 维持问题的数学逻辑核心 - **无需重新生成解答**(对 reformulator 模型要求极低) - 保证 RLVR 训练中的奖励信号可靠性 ## 三种改写策略 | 策略 | 操作 | 挑战的能力 | 答案保持率 | |------|------|-----------|-----------| | **Background** | 添加叙事背景(历史/文化/科幻等) | 从噪声中识别关键数学信息 | 99% | | **Term** | 发明抽象数学术语定义核心概念 | 理解抽象数学概念 | 97% | | **Sub-Problem** | 将数值条件转为独立子问题 | 多步推理与跨域知识 | 97% | ## 改写示例 **原题**:Bérengère 和 Emily 在巴黎买蛋糕,蛋糕 6 欧元,Emily 有 5 美元,汇率 1 欧元 = 1.25 美元,Bérengère 需付多少欧元? **Background 改写**:添加蒙马特历史街区的故事背景,描述糕点店"Le Temps Sucré"和圣奥诺雷蛋糕…… **Term 改写**:定义"euro-gap" ϵ 为购买价格与持有资金之间的非负欧元差额…… **Sub-Problem 改写**:先求解 x+y=9, x²+y²=41 得到汇率比 r,再计算欧元贡献…… ## Reforumulator 模型 默认使用 **OpenAI o3**,小型开源模型也可胜任。平均每题消耗: - Input: 255 tokens - Output reasoning: 820 tokens - Output reformulated: 138 tokens - MATH 数据集 22.5k 题的改写总成本 ≈ $184 ## 与 DGPO 的协同 MQR 生成的更难问题**是 DGPO 的理想训练材料**: - MQR 扩展数据的能力边界 - DGPO 优先学习这些更难的问题 - 形成正反馈训练循环 ## 相关概念 - [[math-question-reformulation]] — 三种策略详解 - [[dgpo|DGPO]] — 算法组件 - [[mathforge]] — 完整框架 - [[rlvr-unified-framework]] — 训练范式 - [[dai-mathforge-2026|论文页面]]