SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.4 KiB

Raw Blame History

title, domain, tags, sources

title

domain

tags

sources

专项监督微调 (Specialized SFT)

Multimodal AI / Training

sft

supervised-fine-tuning

visual-primitives

training

thinking-with-visual-primitives

专项监督微调 (Specialized SFT)

分别训练框原语专家（FTwG）和点原语专家（FTwP），通过领域隔离避免冷启动阶段的模式冲突。

动机

在视觉原语训练中，bounding box 和 point 两种输出格式虽共享「空间指代」的目标，但语义差异显著：

Box 格式包含对象名称 <|ref|>TARGET<|/ref|>
Point 格式不含对象名称，用于更抽象的概念

在专项数据量相对较小的冷启动阶段，混合训练会导致模式冲突（mode conflict），模型难以同时学习两种格式。

训练配置

数据配比：70% 通用多模态/纯文本 + 30% 专项视觉原语数据
分别训练两个模型：FTwG（Thinking with Grounding）和 FTwP（Thinking with Pointing）

后续阶段

两个专项模型分别进入：

specialized-rl → ETwG / ETwP（专家模型）
unified-rft → 融合为单模型
on-policy-distillation → 能力巩固

相关概念

visual-primitives — SFT 的学习目标
specialized-rl — 后续训练阶段
unified-rft — 融合两专家