20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/papers/zhang-reconciling-sft-interaction-2026.md
+++ b/papers/zhang-reconciling-sft-interaction-2026.md
@@ -0,0 +1,88 @@
+---
+title: "Reconciling Contradictory Views on the Effectiveness of SFT in LLMs"
+created: 2026-06-03
+updated: 2026-06-03
+type: paper
+arxiv_id: "2605.17967"
+authors:
+  - "Junpeng Zhang"
+  - "Lei Cheng"
+  - "Guoxi Zhang"
+  - "Hua Cai"
+  - "Qing Xu"
+  - "Quanshi Zhang"
+tags: [SFT, interactions, LLM, fine-tuning, interpretability, overfitting, early-stopping]
+source: "https://arxiv.org/abs/2605.17967"
+---
+
+# Reconciling Contradictory Views on the Effectiveness of SFT in LLMs
+
+**从交互视角调和 LLM 中 SFT 有效性的矛盾观点**
+
+## 核心问题
+
+监督微调（[[supervised-fine-tuning|SFT]]）在小型深度神经网络上广泛有效，但在大语言模型上却表现出不一致甚至有害的效果——有时提升指令遵循能力，有时导致过拟合和泛化能力下降。本文追问的核心科学问题是：**什么内部因素导致了 SFT 在不同 LLM 上效果的不一致？**
+
+## 方法论：交互基解释
+
+作者采用 [[interaction-based-explanation|交互基解释]] 框架，将 LLM 的推理模式分解为一组 [[and-or-interactions|AND-OR 交互]]。每个交互表示输入 token 之间的短语模式——例如 "laws"、"of"、"motion" 三个词共同激活一个交互，为预测 "acceleration" 贡献 +0.41 的置信度。
+
+通过构建由 AND-OR 交互组成的 [[logical-model-interaction|逻辑模型]]，可以以高保真度逼近 LLM 的输出分数。这种分解使得追踪 SFT 过程中推理模式的演变成为可能。
+
+## 三类交互分析
+
+作者将 SFT 过程中的交互变化分为三类：
+
+| 类型 | 定义 | 特征 |
+|------|------|------|
+| **[[interaction-types-sft|Removed（被移除）]]** | SFT 前存在，训练中被消除 | 高阶、非泛化、正负效应相互抵消（噪声） |
+| **[[interaction-types-sft|Preserved（被保留）]]** | SFT 前后始终存在 | 低阶、泛化性强、未抵消效应比例高（可靠信号） |
+| **[[interaction-types-sft|Newly Emerged（新涌现）]]** | SFT 中新习得 | 早期涌现的较可靠；后期涌现的类似噪声 |
+
+## 核心发现：SFT 的两阶段动力学
+
+### 第一阶段：极短的去噪阶段（~1000 步）
+
+- LLM 在此阶段**主要移除噪声交互**，而非学习新的可靠交互
+- 被移除的交互具有三个噪声特征：高阶复杂、跨模型不泛化（[[interaction-generalizability|γ ≈ 0]]）、正负效应抵消（[[uncancelled-interaction-effects|ρ ≈ 0]]）
+- 仅少量低阶交互被保留下来
+- 这是 SFT **唯一有效的阶段**
+
+### 第二阶段：漫长的过拟合阶段
+
+- LLM 开始大量学习新的交互，但这些交互大多是**高阶、非泛化的噪声模式**
+- 此阶段涌现的交互与训练-测试损失差距增大强相关
+- 继续训练几乎不再移除交互
+- **持续微调主要引入过拟合模式**
+
+这一两阶段动力学的关键洞察被称为 [[sft-denoising-stage|SFT 去噪阶段]] 理论。
+
+## 保留交互是推理支柱
+
+作者进一步验证了 [[preserved-interactions-backbone|保留交互作为推理支柱]] 的假说：
+
+1. **未抵消效应**：保留交互的 ρ 值最高（正负效应很少抵消），而移除和新涌现的交互 ρ ≈ 0
+2. **单交互贡献**：保留交互和早期涌现交互对目标 token 预测的贡献远大于其他交互
+3. **独立推理能力**：仅使用保留交互进行预测时，测试交叉熵损失最低——甚至优于仅使用新涌现交互
+
+> **结论**：SFT 的本质不是"教会 LLM 新能力"，而是"清除预训练中的噪声模式，并巩固已有的可靠推理骨架"。
+
+## 实验验证
+
+- **模型**：Qwen2.5-3B/7B-Instruct, Llama-2-7B-Chat, Llama-3-8B-Instruct, Gemma-3-4B-it
+- **数据集**：GoEmotions, Unilaw-R1-Data, Databricks-Dolly-15k
+- **微调方法**：LoRA
+- **交互提取**：AND-OR 分解 + LASSO 稀疏化
+
+## 实践启示
+
+1. **[[sft-early-stopping|SFT 早停策略]]**：交互可作为一种原则性的早停信号——当去噪阶段结束（交互移除趋于饱和），应立即停止训练
+2. **数据规模反思**：收集大规模 SFT 数据的边际价值有限——极少量样本就足以完成去噪
+3. **诊断工具**：交互演变为监控 SFT 提供了可解释、可验证的量化指标
+
+## 与现有工作的关联
+
+- 与 [[supervised-fine-tuning]] 的争议性文献对话（SFT 提升指令遵循 vs. SFT 导致灾难性遗忘）
+- 与 [[interaction-based-explanation]] 的理论基础衔接（Ren et al., Chen et al.）
+- 与 [[lora]] 参数高效微调实践兼容
+- 与 [[rlhf]]、[[dpo]] 等替代性后训练范式构成对照