myWiki/concepts/supervised-fine-tuning.md

---
title: "监督微调 (Supervised Fine-Tuning, SFT)"
created: 2026-06-03
updated: 2026-06-03
type: concept
tags: [fine-tuning, LLM, training]
status: placeholder
---

# 监督微调 (Supervised Fine-Tuning, SFT)

> ⚠️ 占位符页面 — 待完善

监督微调（SFT）是在预训练 LLM 上使用标注数据（输入-输出对）进行进一步训练的标准范式。广泛应用于指令微调、领域适配等场景。

**关键争议**：SFT 对小型 DNN 广泛有效，但在 LLM 上效果不一致——有时提升指令遵循能力，有时导致过拟合和泛化能力下降。

**核心论文**：
- [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] — 从交互视角解释 SFT 效果不一致的原因

## 相关概念

- [[sft-denoising-stage|SFT 去噪阶段]]
- [[sft-early-stopping|SFT 早停策略]]
- [[lora]]
- [[rlhf]]
- [[dpo]]