SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

MathChatSync Reasoning

2025-06-02

2025-06-02

concept

dataset

multi-turn-reasoning

math

goru-one-pass-to-reason-2025

MathChatSync Reasoning

goru-one-pass-to-reason-2025 论文中创建并发布的首个公开多轮推理数据集，基于 MathChatSync 用 GPT-4.1-mini 合成推理 token。

背景

现有的推理模型（deepseek-r1 等）主要在单轮推理数据上训练。缺乏公开的多轮推理数据集是 multi-turn-reasoning 研究的瓶颈。

构建方法

源数据：MathChatSync（Liang et al., 2024）—— 多轮数学对话数据集
推理合成：用 GPT-4.1-mini 为每个助手回复生成推理 token
条件：推理生成基于对话历史和当前助手回复内容

特点

多轮结构：每个对话包含 N 轮交替的人类消息和助手回复
显式推理：每个助手回复 ai = (ti, ri)，包括 reasoning token 和 response token
对话深度：1–16 轮（受 MathChatSync 分布影响，偏 5–7 轮）

实验分组

论文按对话深度将数据分为三组：

G1：1–5 轮
G2：6–7 轮
G3：8–16 轮

实验中验证了深度越大，one-pass-fine-tuning 加速越明显（符合 O(N²) vs O(N³) 的理论预测）。

获取

HuggingFace: devrev-research/MathChatSync-reasoning
论文代码: github.com/devrev/One-Pass-to-Reason

相关