--- title: "Token Duplication (Token 复制)" created: 2025-06-02 updated: 2025-06-02 type: concept tags: [training-optimization, attention-mask, multi-turn-reasoning] sources: ["[[goru-one-pass-to-reason-2025]]"] --- # Token Duplication > 在多轮推理训练的 [[one-pass-fine-tuning|单遍微调]] 中,将每个助手回复的 response token 复制为两份以解决可见性冲突的技术。 ## 为什么需要复制 推理模型的多轮对话中存在一个根本矛盾: - **生成时**:ri 必须能关注 ti(推理 token)来产生正确回复 - **作为上下文时**:ri 不应关注 ti(推理 token 已被丢弃) 单一 token 序列无法同时满足这两个条件 → 需要两份副本。 ## 两份副本的角色 | 副本 | 符号 | 职责 | 注意力范围 | 参与 loss | |------|------|------|-----------|----------| | 上下文副本 | ri_in | 为后续轮次提供历史 | A(H_{