20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/specialized-sft.md
+++ b/concepts/specialized-sft.md
@@ -0,0 +1,36 @@
+---
+title: "专项监督微调 (Specialized SFT)"
+domain: "Multimodal AI / Training"
+tags: [sft, supervised-fine-tuning, visual-primitives, training]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 专项监督微调 (Specialized SFT)
+
+> 分别训练框原语专家（FTwG）和点原语专家（FTwP），通过领域隔离避免冷启动阶段的模式冲突。
+
+## 动机
+
+在视觉原语训练中，bounding box 和 point 两种输出格式虽共享「空间指代」的目标，但语义差异显著：
+- Box 格式包含对象名称 `<|ref|>TARGET<|/ref|>`
+- Point 格式不含对象名称，用于更抽象的概念
+
+在专项数据量相对较小的冷启动阶段，混合训练会导致**模式冲突**（mode conflict），模型难以同时学习两种格式。
+
+## 训练配置
+
+- 数据配比：70% 通用多模态/纯文本 + 30% 专项视觉原语数据
+- 分别训练两个模型：**FTwG**（Thinking with Grounding）和 **FTwP**（Thinking with Pointing）
+
+## 后续阶段
+
+两个专项模型分别进入：
+1. [[specialized-rl|专项强化学习]] → ETwG / ETwP（专家模型）
+2. [[unified-rft|统一拒绝采样微调]] → 融合为单模型
+3. [[on-policy-distillation|在线策略蒸馏]] → 能力巩固
+
+## 相关概念
+
+- [[visual-primitives|视觉原语]] — SFT 的学习目标
+- [[specialized-rl|专项强化学习]] — 后续训练阶段
+- [[unified-rft|统一拒绝采样微调]] — 融合两专家