--- title: "SFT 中的三类交互 (Removed, Preserved, Newly Emerged)" created: 2026-06-03 updated: 2026-06-03 type: concept tags: [SFT, interactions, LLM, fine-tuning] sources: - "[[zhang-reconciling-sft-interaction-2026]]" --- # SFT 中的三类交互 在 [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 的框架中,SFT 过程中的交互被分为三种类型,以刻画 LLM 表征质量的提升与退化。 ## 三类交互 ### 1. Removed(被移除的交互) $$R_t^{\text{type}} = \Omega_0^{\text{type}} \setminus \Omega_t^{\text{type}}$$ - **特征**:SFT 前存在,训练中被消除 - **质量**:高阶、非泛化([[interaction-generalizability|γ ≈ 0]])、正负效应相互抵消([[uncancelled-interaction-effects|ρ ≈ 0]]) - **本质**:预训练中的噪声模式 ### 2. Preserved(被保留的交互) $$P_t^{\text{type}} = P_{t-1}^{\text{type}} \cap \Omega_t^{\text{type}}$$ - **特征**:SFT 前后始终存在 - **质量**:低阶、泛化性强(γ > 50%)、未抵消效应比例高 - **本质**:LLM 推理的核心骨架([[preserved-interactions-backbone|保留交互作为推理支柱]]) ### 3. Newly Emerged(新涌现的交互) $$E_t^{\text{type}} = \Omega_t^{\text{type}} \setminus P_t^{\text{type}}$$ - **特征**:SFT 中新习得 - **质量**:两极分化——早期涌现的相对可靠,后期涌现的类似噪声 - **本质**:去噪阶段涌现的少量可靠模式 + 过拟合阶段涌现的大量噪声 ## 质量度量 | 类型 | 泛化性 γ | 未抵消效应 ρ | 阶数 | 对预测的贡献 | |------|----------|-------------|------|-------------| | Removed | ≈ 0 | ≈ 0 | 高 | 可忽略 | | Preserved | > 50% | 高 | 低 | 核心贡献 | | Newly Emerged (早期) | 中高 | 较高 | 中低 | 显著 | | Newly Emerged (后期) | 低 | ≈ 0 | 高 | 可忽略 | ## 相关概念 - [[sft-denoising-stage|SFT 去噪阶段]] - [[preserved-interactions-backbone|保留交互作为推理支柱]] - [[interaction-generalizability|交互泛化性]] - [[uncancelled-interaction-effects|未抵消交互效应]] - [[interaction-order|交互阶数]]