20260514:增加新内容

This commit is contained in:
2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions

View File

@@ -0,0 +1,36 @@
---
title: "专项监督微调 (Specialized SFT)"
domain: "Multimodal AI / Training"
tags: [sft, supervised-fine-tuning, visual-primitives, training]
sources: [[thinking-with-visual-primitives]]
---
# 专项监督微调 (Specialized SFT)
> 分别训练框原语专家FTwG和点原语专家FTwP通过领域隔离避免冷启动阶段的模式冲突。
## 动机
在视觉原语训练中bounding box 和 point 两种输出格式虽共享「空间指代」的目标,但语义差异显著:
- Box 格式包含对象名称 `<|ref|>TARGET<|/ref|>`
- Point 格式不含对象名称,用于更抽象的概念
在专项数据量相对较小的冷启动阶段,混合训练会导致**模式冲突**mode conflict模型难以同时学习两种格式。
## 训练配置
- 数据配比70% 通用多模态/纯文本 + 30% 专项视觉原语数据
- 分别训练两个模型:**FTwG**Thinking with Grounding**FTwP**Thinking with Pointing
## 后续阶段
两个专项模型分别进入:
1. [[specialized-rl|专项强化学习]] → ETwG / ETwP专家模型
2. [[unified-rft|统一拒绝采样微调]] → 融合为单模型
3. [[on-policy-distillation|在线策略蒸馏]] → 能力巩固
## 相关概念
- [[visual-primitives|视觉原语]] — SFT 的学习目标
- [[specialized-rl|专项强化学习]] — 后续训练阶段
- [[unified-rft|统一拒绝采样微调]] — 融合两专家