1.4 KiB
1.4 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| 专项监督微调 (Specialized SFT) | Multimodal AI / Training |
|
|
专项监督微调 (Specialized SFT)
分别训练框原语专家(FTwG)和点原语专家(FTwP),通过领域隔离避免冷启动阶段的模式冲突。
动机
在视觉原语训练中,bounding box 和 point 两种输出格式虽共享「空间指代」的目标,但语义差异显著:
- Box 格式包含对象名称
<|ref|>TARGET<|/ref|> - Point 格式不含对象名称,用于更抽象的概念
在专项数据量相对较小的冷启动阶段,混合训练会导致模式冲突(mode conflict),模型难以同时学习两种格式。
训练配置
- 数据配比:70% 通用多模态/纯文本 + 30% 专项视觉原语数据
- 分别训练两个模型:FTwG(Thinking with Grounding)和 FTwP(Thinking with Pointing)
后续阶段
两个专项模型分别进入:
- specialized-rl → ETwG / ETwP(专家模型)
- unified-rft → 融合为单模型
- on-policy-distillation → 能力巩固
相关概念
- visual-primitives — SFT 的学习目标
- specialized-rl — 后续训练阶段
- unified-rft — 融合两专家