20260617:目前有914 页
This commit is contained in:
54
concepts/sft-denoising-stage.md
Normal file
54
concepts/sft-denoising-stage.md
Normal file
@@ -0,0 +1,54 @@
|
||||
---
|
||||
title: "SFT 去噪阶段 (SFT Denoising Stage)"
|
||||
created: 2026-06-03
|
||||
updated: 2026-06-03
|
||||
type: concept
|
||||
tags: [SFT, denoising, LLM, fine-tuning, overfitting]
|
||||
sources:
|
||||
- "[[zhang-reconciling-sft-interaction-2026]]"
|
||||
---
|
||||
|
||||
# SFT 去噪阶段 (SFT Denoising Stage)
|
||||
|
||||
## 核心发现
|
||||
|
||||
[[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 揭示了 SFT 过程呈现清晰的**两阶段动力学**:
|
||||
|
||||
### 第一阶段:去噪阶段(Denoising Stage)
|
||||
|
||||
- **时长**:极短(~1000 训练步以内)
|
||||
- **主要行为**:移除 [[interaction-types-sft|噪声交互]]
|
||||
- 被移除的交互几乎全部是:高阶、非泛化、正负效应抵消的噪声模式
|
||||
- 移除的交互数量占总移除量的绝大部分
|
||||
- **新交互涌现**:极少,且涌现的少量交互质量较高(低阶、泛化性强)
|
||||
- **保留交互**:少量低阶、可靠的交互被识别并巩固
|
||||
- **本质**:**这是 SFT 唯一真正有效的阶段**
|
||||
|
||||
### 第二阶段:过拟合阶段(Overfitting Stage)
|
||||
|
||||
- **时长**:占据 SFT 过程的大部分
|
||||
- **主要行为**:大量涌现新的 [[interaction-types-sft|噪声交互]]
|
||||
- 高阶、非泛化、正负效应抵消
|
||||
- 与训练-测试损失差距增大强相关
|
||||
- **交互移除**:几乎停止
|
||||
- **本质**:**持续微调不仅无效,反而有害**
|
||||
|
||||
## 理论意义
|
||||
|
||||
这一发现从根本上重新定义了 SFT 的效用:
|
||||
1. SFT 的本质是**去噪**而非**学习新能力**
|
||||
2. SFT 的有效窗口极窄——少量样本就够了
|
||||
3. 大规模 SFT 数据的边际价值有限
|
||||
|
||||
## 实践启示
|
||||
|
||||
- 为 [[sft-early-stopping|SFT 早停策略]] 提供了原则性依据
|
||||
- 交互演变可作为早停的诊断信号
|
||||
- 解释了为什么 SFT 在 LLM 上效果不一致:取决于去噪是否在过拟合开始前充分完成
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[interaction-types-sft|SFT 中的三类交互]]
|
||||
- [[preserved-interactions-backbone|保留交互作为推理支柱]]
|
||||
- [[sft-early-stopping|SFT 早停策略]]
|
||||
- [[supervised-fine-tuning|监督微调]]
|
||||
Reference in New Issue
Block a user