Files
myWiki/papers/zhang-reconciling-sft-interaction-2026.md

89 lines
4.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Reconciling Contradictory Views on the Effectiveness of SFT in LLMs"
created: 2026-06-03
updated: 2026-06-03
type: paper
arxiv_id: "2605.17967"
authors:
- "Junpeng Zhang"
- "Lei Cheng"
- "Guoxi Zhang"
- "Hua Cai"
- "Qing Xu"
- "Quanshi Zhang"
tags: [SFT, interactions, LLM, fine-tuning, interpretability, overfitting, early-stopping]
source: "https://arxiv.org/abs/2605.17967"
---
# Reconciling Contradictory Views on the Effectiveness of SFT in LLMs
**从交互视角调和 LLM 中 SFT 有效性的矛盾观点**
## 核心问题
监督微调([[supervised-fine-tuning|SFT]])在小型深度神经网络上广泛有效,但在大语言模型上却表现出不一致甚至有害的效果——有时提升指令遵循能力,有时导致过拟合和泛化能力下降。本文追问的核心科学问题是:**什么内部因素导致了 SFT 在不同 LLM 上效果的不一致?**
## 方法论:交互基解释
作者采用 [[interaction-based-explanation|交互基解释]] 框架,将 LLM 的推理模式分解为一组 [[and-or-interactions|AND-OR 交互]]。每个交互表示输入 token 之间的短语模式——例如 "laws"、"of"、"motion" 三个词共同激活一个交互,为预测 "acceleration" 贡献 +0.41 的置信度。
通过构建由 AND-OR 交互组成的 [[logical-model-interaction|逻辑模型]],可以以高保真度逼近 LLM 的输出分数。这种分解使得追踪 SFT 过程中推理模式的演变成为可能。
## 三类交互分析
作者将 SFT 过程中的交互变化分为三类:
| 类型 | 定义 | 特征 |
|------|------|------|
| **[[interaction-types-sft|Removed被移除]]** | SFT 前存在,训练中被消除 | 高阶、非泛化、正负效应相互抵消(噪声) |
| **[[interaction-types-sft|Preserved被保留]]** | SFT 前后始终存在 | 低阶、泛化性强、未抵消效应比例高(可靠信号) |
| **[[interaction-types-sft|Newly Emerged新涌现]]** | SFT 中新习得 | 早期涌现的较可靠;后期涌现的类似噪声 |
## 核心发现SFT 的两阶段动力学
### 第一阶段:极短的去噪阶段(~1000 步)
- LLM 在此阶段**主要移除噪声交互**,而非学习新的可靠交互
- 被移除的交互具有三个噪声特征:高阶复杂、跨模型不泛化([[interaction-generalizability|γ ≈ 0]])、正负效应抵消([[uncancelled-interaction-effects|ρ ≈ 0]]
- 仅少量低阶交互被保留下来
- 这是 SFT **唯一有效的阶段**
### 第二阶段:漫长的过拟合阶段
- LLM 开始大量学习新的交互,但这些交互大多是**高阶、非泛化的噪声模式**
- 此阶段涌现的交互与训练-测试损失差距增大强相关
- 继续训练几乎不再移除交互
- **持续微调主要引入过拟合模式**
这一两阶段动力学的关键洞察被称为 [[sft-denoising-stage|SFT 去噪阶段]] 理论。
## 保留交互是推理支柱
作者进一步验证了 [[preserved-interactions-backbone|保留交互作为推理支柱]] 的假说:
1. **未抵消效应**:保留交互的 ρ 值最高(正负效应很少抵消),而移除和新涌现的交互 ρ ≈ 0
2. **单交互贡献**:保留交互和早期涌现交互对目标 token 预测的贡献远大于其他交互
3. **独立推理能力**:仅使用保留交互进行预测时,测试交叉熵损失最低——甚至优于仅使用新涌现交互
> **结论**SFT 的本质不是"教会 LLM 新能力",而是"清除预训练中的噪声模式,并巩固已有的可靠推理骨架"。
## 实验验证
- **模型**Qwen2.5-3B/7B-Instruct, Llama-2-7B-Chat, Llama-3-8B-Instruct, Gemma-3-4B-it
- **数据集**GoEmotions, Unilaw-R1-Data, Databricks-Dolly-15k
- **微调方法**LoRA
- **交互提取**AND-OR 分解 + LASSO 稀疏化
## 实践启示
1. **[[sft-early-stopping|SFT 早停策略]]**:交互可作为一种原则性的早停信号——当去噪阶段结束(交互移除趋于饱和),应立即停止训练
2. **数据规模反思**:收集大规模 SFT 数据的边际价值有限——极少量样本就足以完成去噪
3. **诊断工具**:交互演变为监控 SFT 提供了可解释、可验证的量化指标
## 与现有工作的关联
- 与 [[supervised-fine-tuning]] 的争议性文献对话SFT 提升指令遵循 vs. SFT 导致灾难性遗忘)
- 与 [[interaction-based-explanation]] 的理论基础衔接Ren et al., Chen et al.
- 与 [[lora]] 参数高效微调实践兼容
- 与 [[rlhf]]、[[dpo]] 等替代性后训练范式构成对照