SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.0 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Multi-Turn Reasoning Training (多轮推理训练)

2025-06-02

2025-06-02

concept

multi-turn-reasoning

fine-tuning

llm-training

goru-one-pass-to-reason-2025

Multi-Turn Reasoning Training

在包含多轮对话且每轮需要显式推理的数据上微调语言模型的问题域及其独特挑战。

与传统多轮对话的区别

特性	多轮对话微调	多轮推理微调
推理 token	无	有（ti），每轮生成后丢弃
注意力约束	标准因果	推理 token 对后续轮次不可见
训练效率	可单遍处理	传统需要 N 遍（[[one-pass-fine-tuning
位置编码	连续	存在 [[position-id-discrepancy

核心挑战

1. visibility-constraint

推理模型遵循行业惯例（OpenAI, 2024; Anthropic, 2025）：

生成推理 token（ti）
基于 ti 生成回复（ri）
丢弃 ti，后续轮次只能看到历史中的 ri

这意味着训练时不能简单地用一个因果掩码处理整个对话——ti 对 aj>i 必须是不可见的。

2. position-id-discrepancy

回复 token ri 的位置在两种场景中不同：

生成时：ri 跟在 ti 后面
作为上下文时：ri 直接跟在 hi 后面

直接串联会导致位置编码错误。

现有模型的局限

DeepSeek-R1、o1 等推理模型主要基于单轮推理数据训练
缺乏公开的多轮推理数据集 → 论文提出了 mathchatsync-reasoning

解决方案

goru-one-pass-to-reason-2025 通过 token-duplication + block-sparse-attention 将 N 遍训练压缩为单遍。

应用场景

多轮数学对话教学
逐步推理的客服对话
工具调用的推理链

相关