Files
myWiki/concepts/multi-turn-reasoning.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Multi-Turn Reasoning Training (多轮推理训练) 2025-06-02 2025-06-02 concept
multi-turn-reasoning
fine-tuning
llm-training
goru-one-pass-to-reason-2025

Multi-Turn Reasoning Training

在包含多轮对话且每轮需要显式推理的数据上微调语言模型的问题域及其独特挑战。

与传统多轮对话的区别

特性 多轮对话微调 多轮推理微调
推理 token ti每轮生成后丢弃
注意力约束 标准因果 推理 token 对后续轮次不可见
训练效率 可单遍处理 传统需要 N 遍([[one-pass-fine-tuning
位置编码 连续 存在 [[position-id-discrepancy

核心挑战

1. visibility-constraint

推理模型遵循行业惯例OpenAI, 2024; Anthropic, 2025

  1. 生成推理 tokenti
  2. 基于 ti 生成回复ri
  3. 丢弃 ti,后续轮次只能看到历史中的 ri

这意味着训练时不能简单地用一个因果掩码处理整个对话——ti 对 aj>i 必须是不可见的。

2. position-id-discrepancy

回复 token ri 的位置在两种场景中不同:

  • 生成时ri 跟在 ti 后面
  • 作为上下文时ri 直接跟在 hi 后面

直接串联会导致位置编码错误。

现有模型的局限

  • DeepSeek-R1o1 等推理模型主要基于单轮推理数据训练
  • 缺乏公开的多轮推理数据集 → 论文提出了 mathchatsync-reasoning

解决方案

goru-one-pass-to-reason-2025 通过 token-duplication + block-sparse-attention 将 N 遍训练压缩为单遍。

应用场景

  • 多轮数学对话教学
  • 逐步推理的客服对话
  • 工具调用的推理链

相关