Files
myWiki/concepts/mqr.md

2.3 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Multi-Aspect Question Reformulation (MQR) 2026-05-12 2026-05-12 concept
data-augmentation
mathematical-reasoning
question-reformulation
arxiv:2601.20614

Multi-Aspect Question Reformulation (MQR)

MQRmathforge 框架的数据组件,通过多维度改写数学问题来系统性地提高训练数据的内在难度,同时保持原始答案不变。

核心约束

答案保持Answer Preservation:所有改写必须保持原始 gold answer 不变。

这一约束的意义:

  • 维持问题的数学逻辑核心
  • 无需重新生成解答(对 reformulator 模型要求极低)
  • 保证 RLVR 训练中的奖励信号可靠性

三种改写策略

策略 操作 挑战的能力 答案保持率
Background 添加叙事背景(历史/文化/科幻等) 从噪声中识别关键数学信息 99%
Term 发明抽象数学术语定义核心概念 理解抽象数学概念 97%
Sub-Problem 将数值条件转为独立子问题 多步推理与跨域知识 97%

改写示例

原题Bérengère 和 Emily 在巴黎买蛋糕,蛋糕 6 欧元Emily 有 5 美元,汇率 1 欧元 = 1.25 美元Bérengère 需付多少欧元?

Background 改写:添加蒙马特历史街区的故事背景,描述糕点店"Le Temps Sucré"和圣奥诺雷蛋糕……

Term 改写:定义"euro-gap" ϵ 为购买价格与持有资金之间的非负欧元差额……

Sub-Problem 改写:先求解 x+y=9, x²+y²=41 得到汇率比 r再计算欧元贡献……

Reforumulator 模型

默认使用 OpenAI o3,小型开源模型也可胜任。平均每题消耗:

  • Input: 255 tokens
  • Output reasoning: 820 tokens
  • Output reformulated: 138 tokens
  • MATH 数据集 22.5k 题的改写总成本 ≈ $184

与 DGPO 的协同

MQR 生成的更难问题是 DGPO 的理想训练材料

  • MQR 扩展数据的能力边界
  • DGPO 优先学习这些更难的问题
  • 形成正反馈训练循环

相关概念