Files
myWiki/concepts/interaction-types-sft.md

2.1 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
SFT 中的三类交互 (Removed, Preserved, Newly Emerged) 2026-06-03 2026-06-03 concept
SFT
interactions
LLM
fine-tuning
zhang-reconciling-sft-interaction-2026

SFT 中的三类交互

zhang-reconciling-sft-interaction-2026 的框架中SFT 过程中的交互被分为三种类型,以刻画 LLM 表征质量的提升与退化。

三类交互

1. Removed被移除的交互

R_t^{\text{type}} = \Omega_0^{\text{type}} \setminus \Omega_t^{\text{type}}

2. Preserved被保留的交互

P_t^{\text{type}} = P_{t-1}^{\text{type}} \cap \Omega_t^{\text{type}}
  • 特征SFT 前后始终存在
  • 质量:低阶、泛化性强(γ > 50%)、未抵消效应比例高
  • 本质LLM 推理的核心骨架(preserved-interactions-backbone

3. Newly Emerged新涌现的交互

E_t^{\text{type}} = \Omega_t^{\text{type}} \setminus P_t^{\text{type}}
  • 特征SFT 中新习得
  • 质量:两极分化——早期涌现的相对可靠,后期涌现的类似噪声
  • 本质:去噪阶段涌现的少量可靠模式 + 过拟合阶段涌现的大量噪声

质量度量

类型 泛化性 γ 未抵消效应 ρ 阶数 对预测的贡献
Removed ≈ 0 ≈ 0 可忽略
Preserved > 50% 核心贡献
Newly Emerged (早期) 中高 较高 中低 显著
Newly Emerged (后期) ≈ 0 可忽略

相关概念