Files
myWiki/concepts/specialized-sft.md

36 lines
1.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "专项监督微调 (Specialized SFT)"
domain: "Multimodal AI / Training"
tags: [sft, supervised-fine-tuning, visual-primitives, training]
sources: [[thinking-with-visual-primitives]]
---
# 专项监督微调 (Specialized SFT)
> 分别训练框原语专家FTwG和点原语专家FTwP通过领域隔离避免冷启动阶段的模式冲突。
## 动机
在视觉原语训练中bounding box 和 point 两种输出格式虽共享「空间指代」的目标,但语义差异显著:
- Box 格式包含对象名称 `<|ref|>TARGET<|/ref|>`
- Point 格式不含对象名称,用于更抽象的概念
在专项数据量相对较小的冷启动阶段,混合训练会导致**模式冲突**mode conflict模型难以同时学习两种格式。
## 训练配置
- 数据配比70% 通用多模态/纯文本 + 30% 专项视觉原语数据
- 分别训练两个模型:**FTwG**Thinking with Grounding**FTwP**Thinking with Pointing
## 后续阶段
两个专项模型分别进入:
1. [[specialized-rl|专项强化学习]] → ETwG / ETwP专家模型
2. [[unified-rft|统一拒绝采样微调]] → 融合为单模型
3. [[on-policy-distillation|在线策略蒸馏]] → 能力巩固
## 相关概念
- [[visual-primitives|视觉原语]] — SFT 的学习目标
- [[specialized-rl|专项强化学习]] — 后续训练阶段
- [[unified-rft|统一拒绝采样微调]] — 融合两专家