--- title: "专项监督微调 (Specialized SFT)" domain: "Multimodal AI / Training" tags: [sft, supervised-fine-tuning, visual-primitives, training] sources: [[thinking-with-visual-primitives]] --- # 专项监督微调 (Specialized SFT) > 分别训练框原语专家(FTwG)和点原语专家(FTwP),通过领域隔离避免冷启动阶段的模式冲突。 ## 动机 在视觉原语训练中,bounding box 和 point 两种输出格式虽共享「空间指代」的目标,但语义差异显著: - Box 格式包含对象名称 `<|ref|>TARGET<|/ref|>` - Point 格式不含对象名称,用于更抽象的概念 在专项数据量相对较小的冷启动阶段,混合训练会导致**模式冲突**(mode conflict),模型难以同时学习两种格式。 ## 训练配置 - 数据配比:70% 通用多模态/纯文本 + 30% 专项视觉原语数据 - 分别训练两个模型:**FTwG**(Thinking with Grounding)和 **FTwP**(Thinking with Pointing) ## 后续阶段 两个专项模型分别进入: 1. [[specialized-rl|专项强化学习]] → ETwG / ETwP(专家模型) 2. [[unified-rft|统一拒绝采样微调]] → 融合为单模型 3. [[on-policy-distillation|在线策略蒸馏]] → 能力巩固 ## 相关概念 - [[visual-primitives|视觉原语]] — SFT 的学习目标 - [[specialized-rl|专项强化学习]] — 后续训练阶段 - [[unified-rft|统一拒绝采样微调]] — 融合两专家