877 B
877 B
title, created, updated, type, tags, status
| title | created | updated | type | tags | status | |||
|---|---|---|---|---|---|---|---|---|
| 监督微调 (Supervised Fine-Tuning, SFT) | 2026-06-03 | 2026-06-03 | concept |
|
placeholder |
监督微调 (Supervised Fine-Tuning, SFT)
⚠️ 占位符页面 — 待完善
监督微调(SFT)是在预训练 LLM 上使用标注数据(输入-输出对)进行进一步训练的标准范式。广泛应用于指令微调、领域适配等场景。
关键争议:SFT 对小型 DNN 广泛有效,但在 LLM 上效果不一致——有时提升指令遵循能力,有时导致过拟合和泛化能力下降。
核心论文:
- zhang-reconciling-sft-interaction-2026 — 从交互视角解释 SFT 效果不一致的原因