20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/supervised-fine-tuning.md
+++ b/concepts/supervised-fine-tuning.md
@@ -0,0 +1,27 @@
+---
+title: "监督微调 (Supervised Fine-Tuning, SFT)"
+created: 2026-06-03
+updated: 2026-06-03
+type: concept
+tags: [fine-tuning, LLM, training]
+status: placeholder
+---
+
+# 监督微调 (Supervised Fine-Tuning, SFT)
+
+> ⚠️ 占位符页面 — 待完善
+
+监督微调（SFT）是在预训练 LLM 上使用标注数据（输入-输出对）进行进一步训练的标准范式。广泛应用于指令微调、领域适配等场景。
+
+**关键争议**：SFT 对小型 DNN 广泛有效，但在 LLM 上效果不一致——有时提升指令遵循能力，有时导致过拟合和泛化能力下降。
+
+**核心论文**：
+- [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] — 从交互视角解释 SFT 效果不一致的原因
+
+## 相关概念
+
+- [[sft-denoising-stage|SFT 去噪阶段]]
+- [[sft-early-stopping|SFT 早停策略]]
+- [[lora]]
+- [[rlhf]]
+- [[dpo]]