1.8 KiB
1.8 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| Heavily Compressed Attention (HCA) | Deep Learning / Attention Mechanisms |
|
|
Heavily Compressed Attention (HCA)
类型: Concept (Tier 1 — Core) 来源: deepseek-v4-million-token-context
定义
HCA(Heavily Compressed Attention)是 DeepSeek-V4 混合注意力架构中的激进压缩方案。与 compressed-sparse-attention(CSA)不同,HCA 对 KV cache 施加更高强度的压缩,但保持密集注意力计算,以最大化全局上下文捕获效率。
核心机制
1. 高强度 KV 压缩
- 比 CSA 更激进的序列维度压缩
- 通过压缩映射将长序列的 KV 表示凝练为紧凑的摘要表示
2. 密集注意力
- 在压缩后的 KV 上执行完整(密集)注意力而非稀疏注意力
- 保留全局上下文信息的完整性,避免稀疏选择可能遗漏的信息
3. 设计权衡
- 优势:更高的压缩比 → 更小的 KV cache → 更低的计算开销
- 代价:压缩过程中的信息损失(由 CSA 层的局部信息补充)
与 CSA 的协同
在 hybrid-attention-architecture 中,CSA 和 HCA 交替或分层部署:
- CSA 层负责保留局部和稀疏全局信息
- HCA 层负责捕获密集全局上下文
- 两者互补,共同实现长上下文下的高效推理
工程实现
- FP4 精度用于索引器中的注意力计算
- BF16/FP8 混合精度用于 KV 表示
- RoPE 位置编码维度隔离用于进一步压缩
相关概念
- compressed-sparse-attention — CSA 压缩稀疏注意力
- hybrid-attention-architecture — 混合注意力架构
- million-token-context — 百万 Token 上下文
Last Updated: 2026-04-27