Files
myWiki/concepts/specialist-training-pipeline.md

1.8 KiB
Raw Permalink Blame History

title, domain, tags, sources
title domain tags sources
Specialist Training Pipeline Machine Learning / Post-Training
post-training
fine-tuning
reinforcement-learning
grpo
deepseek-v4-million-token-context

Specialist Training Pipeline

类型: Concept (Tier 2 — Foundation) 来源: deepseek-v4-million-token-context

定义

专家训练流水线是 DeepSeek-V4 后训练的第一阶段针对每个目标领域数学、编程、Agent、指令遵循等独立训练专家模型为后续的 on-policy-distillation 融合提供高质量教师模型。

训练流程

1. 领域数据准备

  • 收集每个目标领域的高质量 SFT 数据
  • 设计领域特定的奖励模型Reward Model

2. 监督微调 (SFT)

  • Base Model 在领域数据上进行监督微调
  • 建立领域基础能力

3. 强化学习 (RL)

  • 使用 GRPOGroup Relative Policy Optimization
  • 领域特定奖励模型指导优化方向
  • 产出各领域 SOTA 专家模型

每个领域独立优化

领域 训练重点 评估指标
数学 推理链质量 正确率
编程 可执行性、正确性 Pass@1
Agent 工具使用、规划 任务完成率
指令遵循 约束遵守 Win Rate

与 OPD 的协同

专家训练 + on-policy-distillation 构成 DeepSeek-V4 的完整后训练范式:

  1. 分散培养Diverge各自领域独立优化
  2. 统一融合ConvergeOPD 将分散的知识融合到单一模型

优势

  • 避免跨领域负迁移
  • 每个专家可在其领域达到顶级水平
  • 融合后的统一模型同时具备多领域能力

相关概念


Last Updated: 2026-04-27