Files
myWiki/reviews/zhang-sft-interaction-review-20260603.md

92 lines
5.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Review: Reconciling Contradictory Views on SFT in LLMs — 交互视角"
created: 2026-06-03
updated: 2026-06-03
type: review
paper: "[[zhang-reconciling-sft-interaction-2026]]"
---
# 📌 基本信息
- **论文标题**Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective
- **作者**Junpeng Zhang, Lei Cheng, Guoxi Zhang, Hua Cai, Qing Xu, Quanshi Zhang
- **机构**上海交通大学、北京通用人工智能研究院BIGAI、UniDT
- **arXiv ID**2605.17967 | **领域**cs.AI | **时间**2026-05-18
- **添加时间**2026-06-03
# 🎯 核心概念
| # | 概念 | 定义 |
|---|------|------|
| 1 | [[interaction-based-explanation\|交互基解释]] | 将 DNN 推理逻辑分解为 AND-OR 交互原语的可解释性框架 |
| 2 | [[and-or-interactions\|AND-OR 交互]] | 两种基本交互类型AND全变量同时存在激活和 OR任一变量存在激活 |
| 3 | [[interaction-types-sft\|三类交互]] | Removed被消除的噪声、Preserved保留的推理骨架、Newly Emerged新涌现 |
| 4 | [[sft-denoising-stage\|SFT 去噪阶段]] | SFT 呈现两阶段动力学:极短去噪阶段(~1000步→ 漫长的过拟合阶段 |
| 5 | [[interaction-generalizability\|交互泛化性]] | γ 指标衡量交互是否跨不同架构 LLM 一致存在 |
| 6 | [[uncancelled-interaction-effects\|未抵消交互效应]] | ρ 指标衡量交互正负效应抵消后剩余的有效贡献 |
| 7 | [[interaction-order\|交互阶数]] | 交互涉及的输入变量数量——低阶更可靠,高阶多为噪声 |
| 8 | [[logical-model-interaction\|交互逻辑模型]] | 由 AND-OR 交互构建的可解释模型,能以高保真度逼近 LLM 输出 |
| 9 | [[sft-early-stopping\|SFT 早停策略]] | 基于交互演变的早停:当去噪阶段结束(交互移除趋于饱和)时即停止 |
| 10 | [[preserved-interactions-backbone\|保留交互作为推理支柱]] | 验证了保留交互构成 LLM 推理的核心骨架——大部分预测效应来自这个小子集 |
# 🔗 概念网络
**核心连接**
```
interaction-based-explanation
↙ ↘
and-or-interactions logical-model-interaction
↓ ↓
interaction-types-sft ←── interaction-order
sft-denoising-stage ⟷ interaction-generalizability ⟷ uncancelled-interaction-effects
preserved-interactions-backbone ⟶ sft-early-stopping ⟶ supervised-fine-tuning
```
**扩展网络**:连接了 6 个已有概念lora, rlhf, dpo, shapley-values, catastrophic-forgetting, in-context-learning均为新创建的占位符页面
**修复断链**0 个断链
# 📚 Wiki 集成
- **新增页面**18 个1 论文 + 10 核心概念 + 6 占位符概念 + 1 Review
- **链接密度**:核心概念平均 5.2 个出链
- **网络完整**100% 无断链
- **总规模**:从 562 → 584 页(+22 页,+3.9%
# 💡 关键洞察
### 洞察 1SFT 的本质是"去噪"而非"教学"
这篇论文最大的贡献是**颠覆了对 SFT 的根本认知**。传统观点认为 SFT 是在 LLM 中"注入新能力"——教它遵循指令、适应特定领域。但交互视角揭示了一个截然不同的画面:
- SFT 的**有效窗口极窄**~1000 步以内)
- 在此窗口内LLM 主要在做一件事:**清除预训练中的噪声交互**
- 几乎不学习真正可靠的新交互
这意味着:**LLM 在预训练阶段就已经具备了推理所需的核心交互模式**。SFT 的角色不是"教师",而是"清洁工"——扫除噪声,让已有的推理骨架显现出来。
### 洞察 2"保留交互作为推理支柱"对 AI 能力来源的重新审视
作者验证了保留的少量低阶交互就足以支撑目标 token 预测——仅用保留交互计算时测试损失最低。这与 "scaling law" 叙事形成有趣的张力:
- 如果推理骨架在预训练中已存在,那么"后训练阶段的能力涌现"可能更多是**噪声清除效应**而非真正的"能力习得"
- 大量训练样本/步数可能主要引入过拟合,而非提升能力
这为 [[sft-early-stopping|SFT 早停]] 提供了原则性理论基础,也挑战了"更大规模微调必然更好"的信念。
### 方法论贡献:交互作为 LLM 训练的"显微镜"
交互框架为 LLM 训练提供了一种前所未有的细粒度诊断工具。传统监控手段(验证损失、准确率)是粗粒度的代理信号——而交互演变可以直接追踪推理模式的结构性变化。这种"从行为监控到结构监控"的转变是方法论上的重要贡献。
# 📎 文件清单
| 文件 | 路径 |
|------|------|
| 原始存档 | `raw/papers/zhang-reconciling-sft-interaction-2026.md` |
| 论文主页面 | `papers/zhang-reconciling-sft-interaction-2026.md` |
| 核心概念 (×10) | `concepts/interaction-*.md`, `concepts/sft-*.md`, 等 |
| 占位符 (×6) | `concepts/supervised-fine-tuning.md`, `concepts/rlhf.md`, 等 |
| 本 Review | `reviews/zhang-sft-interaction-review-20260603.md` |