1.7 KiB
1.7 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| Hybrid Attention Architecture | Deep Learning / Attention Mechanisms |
|
|
Hybrid Attention Architecture
类型: Concept (Tier 2 — Foundation) 来源: deepseek-v4-million-token-context
定义
混合注意力架构是 DeepSeek-V4 系列为解决超长上下文效率问题而设计的核心创新,它通过在 Transformer 层中交替或组合使用不同压缩策略的注意力机制,在计算效率和上下文覆盖之间取得最优平衡。
组成
compressed-sparse-attention (CSA)
- KV cache 沿序列维度压缩后进行稀疏注意力
- 保留局部信息(滑动窗口)+ 选择性全局信息(稀疏选择)
heavily-compressed-attention (HCA)
- 更高强度的 KV 压缩,但保持密集注意力
- 最大化全局上下文效率,牺牲部分局部细节
设计原则
- 分层部署:不同层采用不同注意力类型
- 效率递进:CSA 层保持中等压缩比,HCA 层激进压缩
- 互补覆盖:局部(CSA滑动窗口)+ 全局(HCA密集)= 完整上下文
效率数据
| 配置 | 1M 上下文 KV Cache (相对基线) |
|---|---|
| BF16 GQA8 基线 | 100% |
| DeepSeek-V3.2 | ~基线的 10% |
| DeepSeek-V4-Pro | ~基线的 2% |
工程实现要点
- FP4/BF16/FP8 混合精度:RoPE 维度 BF16,其他 FP8/FP4
- 闪电索引器(Lightning Indexer)用于 CSA 的 KV 选择
- Multi-Query Attention 共享 K/V
相关概念
- compressed-sparse-attention — CSA
- heavily-compressed-attention — HCA
- million-token-context — 百万 Token 上下文
Last Updated: 2026-04-27