1.8 KiB
1.8 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| Specialist Training Pipeline | Machine Learning / Post-Training |
|
|
Specialist Training Pipeline
类型: Concept (Tier 2 — Foundation) 来源: deepseek-v4-million-token-context
定义
专家训练流水线是 DeepSeek-V4 后训练的第一阶段,针对每个目标领域(数学、编程、Agent、指令遵循等)独立训练专家模型,为后续的 on-policy-distillation 融合提供高质量教师模型。
训练流程
1. 领域数据准备
- 收集每个目标领域的高质量 SFT 数据
- 设计领域特定的奖励模型(Reward Model)
2. 监督微调 (SFT)
- Base Model 在领域数据上进行监督微调
- 建立领域基础能力
3. 强化学习 (RL)
- 使用 GRPO(Group Relative Policy Optimization)
- 领域特定奖励模型指导优化方向
- 产出各领域 SOTA 专家模型
每个领域独立优化
| 领域 | 训练重点 | 评估指标 |
|---|---|---|
| 数学 | 推理链质量 | 正确率 |
| 编程 | 可执行性、正确性 | Pass@1 |
| Agent | 工具使用、规划 | 任务完成率 |
| 指令遵循 | 约束遵守 | Win Rate |
与 OPD 的协同
专家训练 + on-policy-distillation 构成 DeepSeek-V4 的完整后训练范式:
- 分散培养(Diverge):各自领域独立优化
- 统一融合(Converge):OPD 将分散的知识融合到单一模型
优势
- 避免跨领域负迁移
- 每个专家可在其领域达到顶级水平
- 融合后的统一模型同时具备多领域能力
相关概念
- on-policy-distillation — OPD 在线策略蒸馏
- test-time-scaling — 测试时扩展
Last Updated: 2026-04-27