20260429:一些新东西

2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions
--- a/concepts/specialist-training-pipeline.md
+++ b/concepts/specialist-training-pipeline.md
@@ -0,0 +1,60 @@
+---
+title: "Specialist Training Pipeline"
+domain: "Machine Learning / Post-Training"
+tags: [post-training, fine-tuning, reinforcement-learning, grpo]
+sources: [[deepseek-v4-million-token-context]]
+---
+
+# Specialist Training Pipeline
+
+> **类型**: Concept (Tier 2 — Foundation)
+> **来源**: [[deepseek-v4-million-token-context]]
+
+## 定义
+
+专家训练流水线是 DeepSeek-V4 后训练的第一阶段，针对每个目标领域（数学、编程、Agent、指令遵循等）独立训练专家模型，为后续的 [[on-policy-distillation]] 融合提供高质量教师模型。
+
+## 训练流程
+
+### 1. 领域数据准备
+- 收集每个目标领域的高质量 SFT 数据
+- 设计领域特定的奖励模型（Reward Model）
+
+### 2. 监督微调 (SFT)
+- Base Model 在领域数据上进行监督微调
+- 建立领域基础能力
+
+### 3. 强化学习 (RL)
+- 使用 GRPO（Group Relative Policy Optimization）
+- 领域特定奖励模型指导优化方向
+- 产出各领域 SOTA 专家模型
+
+## 每个领域独立优化
+
+| 领域 | 训练重点 | 评估指标 |
+|------|---------|---------|
+| 数学 | 推理链质量 | 正确率 |
+| 编程 | 可执行性、正确性 | Pass@1 |
+| Agent | 工具使用、规划 | 任务完成率 |
+| 指令遵循 | 约束遵守 | Win Rate |
+
+## 与 OPD 的协同
+
+专家训练 + [[on-policy-distillation]] 构成 DeepSeek-V4 的完整后训练范式：
+1. **分散培养**（Diverge）：各自领域独立优化
+2. **统一融合**（Converge）：OPD 将分散的知识融合到单一模型
+
+## 优势
+
+- 避免跨领域负迁移
+- 每个专家可在其领域达到顶级水平
+- 融合后的统一模型同时具备多领域能力
+
+## 相关概念
+
+- [[on-policy-distillation]] — OPD 在线策略蒸馏
+- [[test-time-scaling]] — 测试时扩展
+
+---
+
+*Last Updated: 2026-04-27*