--- title: "Specialist Training Pipeline" domain: "Machine Learning / Post-Training" tags: [post-training, fine-tuning, reinforcement-learning, grpo] sources: [[deepseek-v4-million-token-context]] --- # Specialist Training Pipeline > **类型**: Concept (Tier 2 — Foundation) > **来源**: [[deepseek-v4-million-token-context]] ## 定义 专家训练流水线是 DeepSeek-V4 后训练的第一阶段,针对每个目标领域(数学、编程、Agent、指令遵循等)独立训练专家模型,为后续的 [[on-policy-distillation]] 融合提供高质量教师模型。 ## 训练流程 ### 1. 领域数据准备 - 收集每个目标领域的高质量 SFT 数据 - 设计领域特定的奖励模型(Reward Model) ### 2. 监督微调 (SFT) - Base Model 在领域数据上进行监督微调 - 建立领域基础能力 ### 3. 强化学习 (RL) - 使用 GRPO(Group Relative Policy Optimization) - 领域特定奖励模型指导优化方向 - 产出各领域 SOTA 专家模型 ## 每个领域独立优化 | 领域 | 训练重点 | 评估指标 | |------|---------|---------| | 数学 | 推理链质量 | 正确率 | | 编程 | 可执行性、正确性 | Pass@1 | | Agent | 工具使用、规划 | 任务完成率 | | 指令遵循 | 约束遵守 | Win Rate | ## 与 OPD 的协同 专家训练 + [[on-policy-distillation]] 构成 DeepSeek-V4 的完整后训练范式: 1. **分散培养**(Diverge):各自领域独立优化 2. **统一融合**(Converge):OPD 将分散的知识融合到单一模型 ## 优势 - 避免跨领域负迁移 - 每个专家可在其领域达到顶级水平 - 融合后的统一模型同时具备多领域能力 ## 相关概念 - [[on-policy-distillation]] — OPD 在线策略蒸馏 - [[test-time-scaling]] — 测试时扩展 --- *Last Updated: 2026-04-27*