---
title: "Multi-Turn Reasoning Training (多轮推理训练)"
created: 2025-06-02
updated: 2025-06-02
type: concept
tags: [multi-turn-reasoning, fine-tuning, llm-training]
sources: ["[[goru-one-pass-to-reason-2025]]"]
---

# Multi-Turn Reasoning Training

> 在包含多轮对话且每轮需要显式推理的数据上微调语言模型的问题域及其独特挑战。

## 与传统多轮对话的区别

| 特性 | 多轮对话微调 | 多轮推理微调 |
|------|------------|------------|
| 推理 token | 无 | 有（ti），每轮生成后丢弃 |
| 注意力约束 | 标准因果 | 推理 token 对后续轮次不可见 |
| 训练效率 | 可单遍处理 | 传统需要 N 遍（[[one-pass-fine-tuning|One-Pass]] 可解决） |
| 位置编码 | 连续 | 存在 [[position-id-discrepancy|位置 ID 偏差]] |

## 核心挑战

### 1. [[visibility-constraint|可见性约束]]

推理模型遵循行业惯例（OpenAI, 2024; Anthropic, 2025）：
1. 生成推理 token（ti）
2. 基于 ti 生成回复（ri）
3. **丢弃 ti**，后续轮次只能看到历史中的 ri

这意味着训练时不能简单地用一个因果掩码处理整个对话——ti 对 aj>i 必须是不可见的。

### 2. [[position-id-discrepancy|位置 ID 偏差]]

回复 token ri 的位置在两种场景中不同：
- 生成时：ri 跟在 ti 后面
- 作为上下文时：ri 直接跟在 hi 后面

直接串联会导致位置编码错误。

## 现有模型的局限

- **DeepSeek-R1**、**o1** 等推理模型主要基于单轮推理数据训练
- 缺乏公开的多轮推理数据集 → 论文提出了 [[mathchatsync-reasoning|MathChatSync Reasoning]]

## 解决方案

[[goru-one-pass-to-reason-2025|One-Pass to Reason]] 通过 [[token-duplication]] + [[block-sparse-attention]] 将 N 遍训练压缩为单遍。

## 应用场景

- 多轮数学对话教学
- 逐步推理的客服对话
- 工具调用的推理链

## 相关

- [[one-pass-fine-tuning]]
- [[mathchatsync-reasoning]]
- [[goru-one-pass-to-reason-2025|One-Pass to Reason 论文]]