SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

877 B

Raw Blame History

title, created, updated, type, tags, status

title

created

updated

type

tags

status

监督微调 (Supervised Fine-Tuning, SFT)

2026-06-03

2026-06-03

concept

fine-tuning

LLM

training

placeholder

监督微调 (Supervised Fine-Tuning, SFT)

⚠️ 占位符页面 — 待完善

监督微调（SFT）是在预训练 LLM 上使用标注数据（输入-输出对）进行进一步训练的标准范式。广泛应用于指令微调、领域适配等场景。

关键争议：SFT 对小型 DNN 广泛有效，但在 LLM 上效果不一致——有时提升指令遵循能力，有时导致过拟合和泛化能力下降。

核心论文：

zhang-reconciling-sft-interaction-2026 — 从交互视角解释 SFT 效果不一致的原因

相关概念