20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,54 @@
---
title: "SFT 去噪阶段 (SFT Denoising Stage)"
created: 2026-06-03
updated: 2026-06-03
type: concept
tags: [SFT, denoising, LLM, fine-tuning, overfitting]
sources:
- "[[zhang-reconciling-sft-interaction-2026]]"
---
# SFT 去噪阶段 (SFT Denoising Stage)
## 核心发现
[[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 揭示了 SFT 过程呈现清晰的**两阶段动力学**
### 第一阶段去噪阶段Denoising Stage
- **时长**:极短(~1000 训练步以内)
- **主要行为**:移除 [[interaction-types-sft|噪声交互]]
- 被移除的交互几乎全部是:高阶、非泛化、正负效应抵消的噪声模式
- 移除的交互数量占总移除量的绝大部分
- **新交互涌现**:极少,且涌现的少量交互质量较高(低阶、泛化性强)
- **保留交互**:少量低阶、可靠的交互被识别并巩固
- **本质****这是 SFT 唯一真正有效的阶段**
### 第二阶段过拟合阶段Overfitting Stage
- **时长**:占据 SFT 过程的大部分
- **主要行为**:大量涌现新的 [[interaction-types-sft|噪声交互]]
- 高阶、非泛化、正负效应抵消
- 与训练-测试损失差距增大强相关
- **交互移除**:几乎停止
- **本质****持续微调不仅无效,反而有害**
## 理论意义
这一发现从根本上重新定义了 SFT 的效用:
1. SFT 的本质是**去噪**而非**学习新能力**
2. SFT 的有效窗口极窄——少量样本就够了
3. 大规模 SFT 数据的边际价值有限
## 实践启示
- 为 [[sft-early-stopping|SFT 早停策略]] 提供了原则性依据
- 交互演变可作为早停的诊断信号
- 解释了为什么 SFT 在 LLM 上效果不一致:取决于去噪是否在过拟合开始前充分完成
## 相关概念
- [[interaction-types-sft|SFT 中的三类交互]]
- [[preserved-interactions-backbone|保留交互作为推理支柱]]
- [[sft-early-stopping|SFT 早停策略]]
- [[supervised-fine-tuning|监督微调]]