Files
myWiki/concepts/specialist-training-pipeline.md

61 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Specialist Training Pipeline"
domain: "Machine Learning / Post-Training"
tags: [post-training, fine-tuning, reinforcement-learning, grpo]
sources: [[deepseek-v4-million-token-context]]
---
# Specialist Training Pipeline
> **类型**: Concept (Tier 2 — Foundation)
> **来源**: [[deepseek-v4-million-token-context]]
## 定义
专家训练流水线是 DeepSeek-V4 后训练的第一阶段针对每个目标领域数学、编程、Agent、指令遵循等独立训练专家模型为后续的 [[on-policy-distillation]] 融合提供高质量教师模型。
## 训练流程
### 1. 领域数据准备
- 收集每个目标领域的高质量 SFT 数据
- 设计领域特定的奖励模型Reward Model
### 2. 监督微调 (SFT)
- Base Model 在领域数据上进行监督微调
- 建立领域基础能力
### 3. 强化学习 (RL)
- 使用 GRPOGroup Relative Policy Optimization
- 领域特定奖励模型指导优化方向
- 产出各领域 SOTA 专家模型
## 每个领域独立优化
| 领域 | 训练重点 | 评估指标 |
|------|---------|---------|
| 数学 | 推理链质量 | 正确率 |
| 编程 | 可执行性、正确性 | Pass@1 |
| Agent | 工具使用、规划 | 任务完成率 |
| 指令遵循 | 约束遵守 | Win Rate |
## 与 OPD 的协同
专家训练 + [[on-policy-distillation]] 构成 DeepSeek-V4 的完整后训练范式:
1. **分散培养**Diverge各自领域独立优化
2. **统一融合**ConvergeOPD 将分散的知识融合到单一模型
## 优势
- 避免跨领域负迁移
- 每个专家可在其领域达到顶级水平
- 融合后的统一模型同时具备多领域能力
## 相关概念
- [[on-policy-distillation]] — OPD 在线策略蒸馏
- [[test-time-scaling]] — 测试时扩展
---
*Last Updated: 2026-04-27*