Files
myWiki/concepts/specialized-sft.md

1.4 KiB
Raw Blame History

title, domain, tags, sources
title domain tags sources
专项监督微调 (Specialized SFT) Multimodal AI / Training
sft
supervised-fine-tuning
visual-primitives
training
thinking-with-visual-primitives

专项监督微调 (Specialized SFT)

分别训练框原语专家FTwG和点原语专家FTwP通过领域隔离避免冷启动阶段的模式冲突。

动机

在视觉原语训练中bounding box 和 point 两种输出格式虽共享「空间指代」的目标,但语义差异显著:

  • Box 格式包含对象名称 <|ref|>TARGET<|/ref|>
  • Point 格式不含对象名称,用于更抽象的概念

在专项数据量相对较小的冷启动阶段,混合训练会导致模式冲突mode conflict模型难以同时学习两种格式。

训练配置

  • 数据配比70% 通用多模态/纯文本 + 30% 专项视觉原语数据
  • 分别训练两个模型:FTwGThinking with GroundingFTwPThinking with Pointing

后续阶段

两个专项模型分别进入:

  1. specialized-rl → ETwG / ETwP专家模型
  2. unified-rft → 融合为单模型
  3. on-policy-distillation → 能力巩固

相关概念