SidneyZhang/myWiki

Files

Sidney Zhang 56c4d3ef7c

20260429:一些新东西

2026-04-29 16:28:13 +08:00

1.8 KiB

Raw Permalink Blame History

title, domain, tags, sources

title

domain

tags

sources

Specialist Training Pipeline

Machine Learning / Post-Training

post-training

fine-tuning

reinforcement-learning

grpo

deepseek-v4-million-token-context

Specialist Training Pipeline

类型: Concept (Tier 2 — Foundation) 来源: deepseek-v4-million-token-context

定义

专家训练流水线是 DeepSeek-V4 后训练的第一阶段，针对每个目标领域（数学、编程、Agent、指令遵循等）独立训练专家模型，为后续的 on-policy-distillation 融合提供高质量教师模型。

训练流程

1. 领域数据准备

收集每个目标领域的高质量 SFT 数据
设计领域特定的奖励模型（Reward Model）

2. 监督微调 (SFT)

Base Model 在领域数据上进行监督微调
建立领域基础能力

3. 强化学习 (RL)

使用 GRPO（Group Relative Policy Optimization）
领域特定奖励模型指导优化方向
产出各领域 SOTA 专家模型

每个领域独立优化

领域	训练重点	评估指标
数学	推理链质量	正确率
编程	可执行性、正确性	Pass@1
Agent	工具使用、规划	任务完成率
指令遵循	约束遵守	Win Rate

与 OPD 的协同

专家训练 + on-policy-distillation 构成 DeepSeek-V4 的完整后训练范式：

分散培养（Diverge）：各自领域独立优化
统一融合（Converge）：OPD 将分散的知识融合到单一模型

优势

避免跨领域负迁移
每个专家可在其领域达到顶级水平
融合后的统一模型同时具备多领域能力

相关概念

on-policy-distillation — OPD 在线策略蒸馏
test-time-scaling — 测试时扩展

Last Updated: 2026-04-27