DeepSeek-V4: 迈向高效百万 Token 上下文智能

论文链接: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf 模型: DeepSeek-V4-Pro (1.6T/49B activated) | DeepSeek-V4-Flash (284B/13B activated)

核心问题

大语言模型的 reasoning 和 test-time scaling 受限于 vanilla attention 的二次复杂度。如何在保持模型性能的同时，实现百万级 token 的高效推理？

方法论贡献

1. hybrid-attention-architecture — 混合注意力架构

结合 compressed-sparse-attention（CSA）和 heavily-compressed-attention（HCA），大幅降低长上下文的计算量和 KV 缓存：

CSA：沿序列维度压缩 KV cache 后进行稀疏注意力
HCA：激进压缩 KV cache 但保持密集注意力

2. manifold-constrained-hyper-connections（mHC）— 流形约束超连接

将残差映射矩阵约束到 Birkhoff 多面体（双随机矩阵流形），通过 Sinkhorn-Knopp 算法确保前向/反向传播的数值稳定性。

3. muon-optimizer — Muon 优化器

采用混合 Newton-Schulz 迭代的正交化方法，实现更快收敛和更好的训练稳定性。

4. on-policy-distillation（OPD）— 在线策略蒸馏

两阶段后训练范式：先独立训练领域专家模型，再通过多教师反向 KL 蒸馏融合为统一模型。

关键发现

效率革命：1M 上下文下，V4-Pro 仅需 V3.2 的 27% FLOPs 和 10% KV cache
百万上下文原生支持：预训练后即可高效处理 1M token 序列
混合注意力收益巨大：相比 BF16 GQA8 基线，4.3 层 KV cache 仅约 2%
FP4 量化：路由专家权重和 indexer QK 路径采用 FP4，理论可进一步提升 33% 效率

技术栈

组件	技术	创新点
注意力	CSA + HCA 混合	序列压缩 + 稀疏/密集混合
残差连接	mHC	双随机矩阵约束
优化器	Muon	混合 Newton-Schulz 迭代
MoE	DeepSeekMoE	Hash 路由 + 无辅助损失
量化	FP4 QAT	MoE 专家权重 FP4
后训练	Specialist + OPD	多教师全词表 KL 蒸馏

3.0 KiB Raw Blame History Unescape Escape