20260514:增加新内容
This commit is contained in:
36
concepts/specialized-sft.md
Normal file
36
concepts/specialized-sft.md
Normal file
@@ -0,0 +1,36 @@
|
||||
---
|
||||
title: "专项监督微调 (Specialized SFT)"
|
||||
domain: "Multimodal AI / Training"
|
||||
tags: [sft, supervised-fine-tuning, visual-primitives, training]
|
||||
sources: [[thinking-with-visual-primitives]]
|
||||
---
|
||||
|
||||
# 专项监督微调 (Specialized SFT)
|
||||
|
||||
> 分别训练框原语专家(FTwG)和点原语专家(FTwP),通过领域隔离避免冷启动阶段的模式冲突。
|
||||
|
||||
## 动机
|
||||
|
||||
在视觉原语训练中,bounding box 和 point 两种输出格式虽共享「空间指代」的目标,但语义差异显著:
|
||||
- Box 格式包含对象名称 `<|ref|>TARGET<|/ref|>`
|
||||
- Point 格式不含对象名称,用于更抽象的概念
|
||||
|
||||
在专项数据量相对较小的冷启动阶段,混合训练会导致**模式冲突**(mode conflict),模型难以同时学习两种格式。
|
||||
|
||||
## 训练配置
|
||||
|
||||
- 数据配比:70% 通用多模态/纯文本 + 30% 专项视觉原语数据
|
||||
- 分别训练两个模型:**FTwG**(Thinking with Grounding)和 **FTwP**(Thinking with Pointing)
|
||||
|
||||
## 后续阶段
|
||||
|
||||
两个专项模型分别进入:
|
||||
1. [[specialized-rl|专项强化学习]] → ETwG / ETwP(专家模型)
|
||||
2. [[unified-rft|统一拒绝采样微调]] → 融合为单模型
|
||||
3. [[on-policy-distillation|在线策略蒸馏]] → 能力巩固
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[visual-primitives|视觉原语]] — SFT 的学习目标
|
||||
- [[specialized-rl|专项强化学习]] — 后续训练阶段
|
||||
- [[unified-rft|统一拒绝采样微调]] — 融合两专家
|
||||
Reference in New Issue
Block a user