2.1 KiB
2.1 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| SFT 中的三类交互 (Removed, Preserved, Newly Emerged) | 2026-06-03 | 2026-06-03 | concept |
|
|
SFT 中的三类交互
在 zhang-reconciling-sft-interaction-2026 的框架中,SFT 过程中的交互被分为三种类型,以刻画 LLM 表征质量的提升与退化。
三类交互
1. Removed(被移除的交互)
R_t^{\text{type}} = \Omega_0^{\text{type}} \setminus \Omega_t^{\text{type}}
- 特征:SFT 前存在,训练中被消除
- 质量:高阶、非泛化(interaction-generalizability)、正负效应相互抵消(uncancelled-interaction-effects)
- 本质:预训练中的噪声模式
2. Preserved(被保留的交互)
P_t^{\text{type}} = P_{t-1}^{\text{type}} \cap \Omega_t^{\text{type}}
- 特征:SFT 前后始终存在
- 质量:低阶、泛化性强(γ > 50%)、未抵消效应比例高
- 本质:LLM 推理的核心骨架(preserved-interactions-backbone)
3. Newly Emerged(新涌现的交互)
E_t^{\text{type}} = \Omega_t^{\text{type}} \setminus P_t^{\text{type}}
- 特征:SFT 中新习得
- 质量:两极分化——早期涌现的相对可靠,后期涌现的类似噪声
- 本质:去噪阶段涌现的少量可靠模式 + 过拟合阶段涌现的大量噪声
质量度量
| 类型 | 泛化性 γ | 未抵消效应 ρ | 阶数 | 对预测的贡献 |
|---|---|---|---|---|
| Removed | ≈ 0 | ≈ 0 | 高 | 可忽略 |
| Preserved | > 50% | 高 | 低 | 核心贡献 |
| Newly Emerged (早期) | 中高 | 较高 | 中低 | 显著 |
| Newly Emerged (后期) | 低 | ≈ 0 | 高 | 可忽略 |