---
title: "专项监督微调 (Specialized SFT)"
domain: "Multimodal AI / Training"
tags: [sft, supervised-fine-tuning, visual-primitives, training]
sources: [[thinking-with-visual-primitives]]
---

# 专项监督微调 (Specialized SFT)

> 分别训练框原语专家（FTwG）和点原语专家（FTwP），通过领域隔离避免冷启动阶段的模式冲突。

## 动机

在视觉原语训练中，bounding box 和 point 两种输出格式虽共享「空间指代」的目标，但语义差异显著：
- Box 格式包含对象名称 `<|ref|>TARGET<|/ref|>`
- Point 格式不含对象名称，用于更抽象的概念

在专项数据量相对较小的冷启动阶段，混合训练会导致**模式冲突**（mode conflict），模型难以同时学习两种格式。

## 训练配置

- 数据配比：70% 通用多模态/纯文本 + 30% 专项视觉原语数据
- 分别训练两个模型：**FTwG**（Thinking with Grounding）和 **FTwP**（Thinking with Pointing）

## 后续阶段

两个专项模型分别进入：
1. [[specialized-rl|专项强化学习]] → ETwG / ETwP（专家模型）
2. [[unified-rft|统一拒绝采样微调]] → 融合为单模型
3. [[on-policy-distillation|在线策略蒸馏]] → 能力巩固

## 相关概念

- [[visual-primitives|视觉原语]] — SFT 的学习目标
- [[specialized-rl|专项强化学习]] — 后续训练阶段
- [[unified-rft|统一拒绝采样微调]] — 融合两专家