92 lines
5.0 KiB
Markdown
92 lines
5.0 KiB
Markdown
---
|
||
title: "Review: Reconciling Contradictory Views on SFT in LLMs — 交互视角"
|
||
created: 2026-06-03
|
||
updated: 2026-06-03
|
||
type: review
|
||
paper: "[[zhang-reconciling-sft-interaction-2026]]"
|
||
---
|
||
|
||
# 📌 基本信息
|
||
|
||
- **论文标题**:Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective
|
||
- **作者**:Junpeng Zhang, Lei Cheng, Guoxi Zhang, Hua Cai, Qing Xu, Quanshi Zhang
|
||
- **机构**:上海交通大学、北京通用人工智能研究院(BIGAI)、UniDT
|
||
- **arXiv ID**:2605.17967 | **领域**:cs.AI | **时间**:2026-05-18
|
||
- **添加时间**:2026-06-03
|
||
|
||
# 🎯 核心概念
|
||
|
||
| # | 概念 | 定义 |
|
||
|---|------|------|
|
||
| 1 | [[interaction-based-explanation\|交互基解释]] | 将 DNN 推理逻辑分解为 AND-OR 交互原语的可解释性框架 |
|
||
| 2 | [[and-or-interactions\|AND-OR 交互]] | 两种基本交互类型:AND(全变量同时存在激活)和 OR(任一变量存在激活) |
|
||
| 3 | [[interaction-types-sft\|三类交互]] | Removed(被消除的噪声)、Preserved(保留的推理骨架)、Newly Emerged(新涌现) |
|
||
| 4 | [[sft-denoising-stage\|SFT 去噪阶段]] | SFT 呈现两阶段动力学:极短去噪阶段(~1000步)→ 漫长的过拟合阶段 |
|
||
| 5 | [[interaction-generalizability\|交互泛化性]] | γ 指标衡量交互是否跨不同架构 LLM 一致存在 |
|
||
| 6 | [[uncancelled-interaction-effects\|未抵消交互效应]] | ρ 指标衡量交互正负效应抵消后剩余的有效贡献 |
|
||
| 7 | [[interaction-order\|交互阶数]] | 交互涉及的输入变量数量——低阶更可靠,高阶多为噪声 |
|
||
| 8 | [[logical-model-interaction\|交互逻辑模型]] | 由 AND-OR 交互构建的可解释模型,能以高保真度逼近 LLM 输出 |
|
||
| 9 | [[sft-early-stopping\|SFT 早停策略]] | 基于交互演变的早停:当去噪阶段结束(交互移除趋于饱和)时即停止 |
|
||
| 10 | [[preserved-interactions-backbone\|保留交互作为推理支柱]] | 验证了保留交互构成 LLM 推理的核心骨架——大部分预测效应来自这个小子集 |
|
||
|
||
# 🔗 概念网络
|
||
|
||
**核心连接**:
|
||
```
|
||
interaction-based-explanation
|
||
↙ ↘
|
||
and-or-interactions logical-model-interaction
|
||
↓ ↓
|
||
interaction-types-sft ←── interaction-order
|
||
↓
|
||
sft-denoising-stage ⟷ interaction-generalizability ⟷ uncancelled-interaction-effects
|
||
↓
|
||
preserved-interactions-backbone ⟶ sft-early-stopping ⟶ supervised-fine-tuning
|
||
```
|
||
|
||
**扩展网络**:连接了 6 个已有概念(lora, rlhf, dpo, shapley-values, catastrophic-forgetting, in-context-learning),均为新创建的占位符页面
|
||
|
||
**修复断链**:0 个断链
|
||
|
||
# 📚 Wiki 集成
|
||
|
||
- **新增页面**:18 个(1 论文 + 10 核心概念 + 6 占位符概念 + 1 Review)
|
||
- **链接密度**:核心概念平均 5.2 个出链
|
||
- **网络完整**:100% 无断链
|
||
- **总规模**:从 562 → 584 页(+22 页,+3.9%)
|
||
|
||
# 💡 关键洞察
|
||
|
||
### 洞察 1:SFT 的本质是"去噪"而非"教学"
|
||
|
||
这篇论文最大的贡献是**颠覆了对 SFT 的根本认知**。传统观点认为 SFT 是在 LLM 中"注入新能力"——教它遵循指令、适应特定领域。但交互视角揭示了一个截然不同的画面:
|
||
|
||
- SFT 的**有效窗口极窄**(~1000 步以内)
|
||
- 在此窗口内,LLM 主要在做一件事:**清除预训练中的噪声交互**
|
||
- 几乎不学习真正可靠的新交互
|
||
|
||
这意味着:**LLM 在预训练阶段就已经具备了推理所需的核心交互模式**。SFT 的角色不是"教师",而是"清洁工"——扫除噪声,让已有的推理骨架显现出来。
|
||
|
||
### 洞察 2:"保留交互作为推理支柱"对 AI 能力来源的重新审视
|
||
|
||
作者验证了保留的少量低阶交互就足以支撑目标 token 预测——仅用保留交互计算时测试损失最低。这与 "scaling law" 叙事形成有趣的张力:
|
||
|
||
- 如果推理骨架在预训练中已存在,那么"后训练阶段的能力涌现"可能更多是**噪声清除效应**而非真正的"能力习得"
|
||
- 大量训练样本/步数可能主要引入过拟合,而非提升能力
|
||
|
||
这为 [[sft-early-stopping|SFT 早停]] 提供了原则性理论基础,也挑战了"更大规模微调必然更好"的信念。
|
||
|
||
### 方法论贡献:交互作为 LLM 训练的"显微镜"
|
||
|
||
交互框架为 LLM 训练提供了一种前所未有的细粒度诊断工具。传统监控手段(验证损失、准确率)是粗粒度的代理信号——而交互演变可以直接追踪推理模式的结构性变化。这种"从行为监控到结构监控"的转变是方法论上的重要贡献。
|
||
|
||
# 📎 文件清单
|
||
|
||
| 文件 | 路径 |
|
||
|------|------|
|
||
| 原始存档 | `raw/papers/zhang-reconciling-sft-interaction-2026.md` |
|
||
| 论文主页面 | `papers/zhang-reconciling-sft-interaction-2026.md` |
|
||
| 核心概念 (×10) | `concepts/interaction-*.md`, `concepts/sft-*.md`, 等 |
|
||
| 占位符 (×6) | `concepts/supervised-fine-tuning.md`, `concepts/rlhf.md`, 等 |
|
||
| 本 Review | `reviews/zhang-sft-interaction-review-20260603.md` |
|