2.3 KiB
2.3 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Multi-Aspect Question Reformulation (MQR) | 2026-05-12 | 2026-05-12 | concept |
|
|
Multi-Aspect Question Reformulation (MQR)
MQR 是 mathforge 框架的数据组件,通过多维度改写数学问题来系统性地提高训练数据的内在难度,同时保持原始答案不变。
核心约束
答案保持(Answer Preservation):所有改写必须保持原始 gold answer 不变。
这一约束的意义:
- 维持问题的数学逻辑核心
- 无需重新生成解答(对 reformulator 模型要求极低)
- 保证 RLVR 训练中的奖励信号可靠性
三种改写策略
| 策略 | 操作 | 挑战的能力 | 答案保持率 |
|---|---|---|---|
| Background | 添加叙事背景(历史/文化/科幻等) | 从噪声中识别关键数学信息 | 99% |
| Term | 发明抽象数学术语定义核心概念 | 理解抽象数学概念 | 97% |
| Sub-Problem | 将数值条件转为独立子问题 | 多步推理与跨域知识 | 97% |
改写示例
原题:Bérengère 和 Emily 在巴黎买蛋糕,蛋糕 6 欧元,Emily 有 5 美元,汇率 1 欧元 = 1.25 美元,Bérengère 需付多少欧元?
Background 改写:添加蒙马特历史街区的故事背景,描述糕点店"Le Temps Sucré"和圣奥诺雷蛋糕……
Term 改写:定义"euro-gap" ϵ 为购买价格与持有资金之间的非负欧元差额……
Sub-Problem 改写:先求解 x+y=9, x²+y²=41 得到汇率比 r,再计算欧元贡献……
Reforumulator 模型
默认使用 OpenAI o3,小型开源模型也可胜任。平均每题消耗:
- Input: 255 tokens
- Output reasoning: 820 tokens
- Output reformulated: 138 tokens
- MATH 数据集 22.5k 题的改写总成本 ≈ $184
与 DGPO 的协同
MQR 生成的更难问题是 DGPO 的理想训练材料:
- MQR 扩展数据的能力边界
- DGPO 优先学习这些更难的问题
- 形成正反馈训练循环
相关概念
- math-question-reformulation — 三种策略详解
- dgpo — 算法组件
- mathforge — 完整框架
- rlvr-unified-framework — 训练范式
- dai-mathforge-2026