--- title: "One-Pass Fine-Tuning (单遍微调)" created: 2025-06-02 updated: 2025-06-02 type: concept tags: [efficient-fine-tuning, multi-turn-reasoning, training-optimization] sources: ["[[goru-one-pass-to-reason-2025]]"] --- # One-Pass Fine-Tuning > 将多轮对话的 N 遍训练压缩为单遍前向传播的训练技术,通过 token 复制和自定义注意力掩码实现。 ## 核心思想 传统的多轮推理微调需要每轮一次独立前向传播([[multi-turn-reasoning|N-Pass]]),因为推理 token 在后续轮次中被丢弃。One-Pass Fine-Tuning 通过以下三步实现单遍处理: 1. **[[token-duplication|Token 复制]]**:将每个助手回复复制为 ri_in(上下文)和 ri_out(生成+loss) 2. **[[block-sparse-attention|分块稀疏注意力]]**:自定义掩码控制每种 token 类型的可见范围 3. **位置 ID 重排**:确保相对位置关系与 N-Pass 等价 ## 理论保证 **Theorem 2.1**(Goru et al., 2025):在仅由注意力模式、位置编码和输入表示决定输出分布的 LM 中, $$L_{\text{1-Pass}}(c) = \sum_{i=1}^N L_{\text{N-Pass}}(H_{