Heavily Compressed Attention (HCA)

类型: Concept (Tier 1 — Core) 来源: deepseek-v4-million-token-context

定义

HCA（Heavily Compressed Attention）是 DeepSeek-V4 混合注意力架构中的激进压缩方案。与 compressed-sparse-attention（CSA）不同，HCA 对 KV cache 施加更高强度的压缩，但保持密集注意力计算，以最大化全局上下文捕获效率。

核心机制

1. 高强度 KV 压缩

比 CSA 更激进的序列维度压缩
通过压缩映射将长序列的 KV 表示凝练为紧凑的摘要表示

2. 密集注意力

在压缩后的 KV 上执行完整（密集）注意力而非稀疏注意力
保留全局上下文信息的完整性，避免稀疏选择可能遗漏的信息

3. 设计权衡

优势：更高的压缩比 → 更小的 KV cache → 更低的计算开销
代价：压缩过程中的信息损失（由 CSA 层的局部信息补充）

与 CSA 的协同

在 hybrid-attention-architecture 中，CSA 和 HCA 交替或分层部署：

CSA 层负责保留局部和稀疏全局信息
HCA 层负责捕获密集全局上下文
两者互补，共同实现长上下文下的高效推理

工程实现

FP4 精度用于索引器中的注意力计算
BF16/FP8 混合精度用于 KV 表示
RoPE 位置编码维度隔离用于进一步压缩

1.8 KiB Raw Blame History Unescape Escape