Files
myWiki/papers/zhang-reconciling-sft-interaction-2026.md

4.5 KiB
Raw Blame History

title, created, updated, type, arxiv_id, authors, tags, source
title created updated type arxiv_id authors tags source
Reconciling Contradictory Views on the Effectiveness of SFT in LLMs 2026-06-03 2026-06-03 paper 2605.17967
Junpeng Zhang
Lei Cheng
Guoxi Zhang
Hua Cai
Qing Xu
Quanshi Zhang
SFT
interactions
LLM
fine-tuning
interpretability
overfitting
early-stopping
https://arxiv.org/abs/2605.17967

Reconciling Contradictory Views on the Effectiveness of SFT in LLMs

从交互视角调和 LLM 中 SFT 有效性的矛盾观点

核心问题

监督微调(supervised-fine-tuning)在小型深度神经网络上广泛有效,但在大语言模型上却表现出不一致甚至有害的效果——有时提升指令遵循能力,有时导致过拟合和泛化能力下降。本文追问的核心科学问题是:什么内部因素导致了 SFT 在不同 LLM 上效果的不一致?

方法论:交互基解释

作者采用 interaction-based-explanation 框架,将 LLM 的推理模式分解为一组 and-or-interactions。每个交互表示输入 token 之间的短语模式——例如 "laws"、"of"、"motion" 三个词共同激活一个交互,为预测 "acceleration" 贡献 +0.41 的置信度。

通过构建由 AND-OR 交互组成的 logical-model-interaction,可以以高保真度逼近 LLM 的输出分数。这种分解使得追踪 SFT 过程中推理模式的演变成为可能。

三类交互分析

作者将 SFT 过程中的交互变化分为三类:

类型 定义 特征
**[[interaction-types-sft Removed被移除]]** SFT 前存在,训练中被消除
**[[interaction-types-sft Preserved被保留]]** SFT 前后始终存在
**[[interaction-types-sft Newly Emerged新涌现]]** SFT 中新习得

核心发现SFT 的两阶段动力学

第一阶段:极短的去噪阶段(~1000 步)

  • LLM 在此阶段主要移除噪声交互,而非学习新的可靠交互
  • 被移除的交互具有三个噪声特征:高阶复杂、跨模型不泛化(interaction-generalizability)、正负效应抵消(uncancelled-interaction-effects
  • 仅少量低阶交互被保留下来
  • 这是 SFT 唯一有效的阶段

第二阶段:漫长的过拟合阶段

  • LLM 开始大量学习新的交互,但这些交互大多是高阶、非泛化的噪声模式
  • 此阶段涌现的交互与训练-测试损失差距增大强相关
  • 继续训练几乎不再移除交互
  • 持续微调主要引入过拟合模式

这一两阶段动力学的关键洞察被称为 sft-denoising-stage 理论。

保留交互是推理支柱

作者进一步验证了 preserved-interactions-backbone 的假说:

  1. 未抵消效应:保留交互的 ρ 值最高(正负效应很少抵消),而移除和新涌现的交互 ρ ≈ 0
  2. 单交互贡献:保留交互和早期涌现交互对目标 token 预测的贡献远大于其他交互
  3. 独立推理能力:仅使用保留交互进行预测时,测试交叉熵损失最低——甚至优于仅使用新涌现交互

结论SFT 的本质不是"教会 LLM 新能力",而是"清除预训练中的噪声模式,并巩固已有的可靠推理骨架"。

实验验证

  • 模型Qwen2.5-3B/7B-Instruct, Llama-2-7B-Chat, Llama-3-8B-Instruct, Gemma-3-4B-it
  • 数据集GoEmotions, Unilaw-R1-Data, Databricks-Dolly-15k
  • 微调方法LoRA
  • 交互提取AND-OR 分解 + LASSO 稀疏化

实践启示

  1. sft-early-stopping:交互可作为一种原则性的早停信号——当去噪阶段结束(交互移除趋于饱和),应立即停止训练
  2. 数据规模反思:收集大规模 SFT 数据的边际价值有限——极少量样本就足以完成去噪
  3. 诊断工具:交互演变为监控 SFT 提供了可解释、可验证的量化指标

与现有工作的关联