--- title: "Heavily Compressed Attention (HCA)" domain: "Deep Learning / Attention Mechanisms" tags: [attention, long-context, transformer, architecture] sources: [[deepseek-v4-million-token-context]] --- # Heavily Compressed Attention (HCA) > **类型**: Concept (Tier 1 — Core) > **来源**: [[deepseek-v4-million-token-context]] ## 定义 HCA(Heavily Compressed Attention)是 DeepSeek-V4 混合注意力架构中的激进压缩方案。与 [[compressed-sparse-attention]](CSA)不同,HCA 对 KV cache 施加更高强度的压缩,但保持密集注意力计算,以最大化全局上下文捕获效率。 ## 核心机制 ### 1. 高强度 KV 压缩 - 比 CSA 更激进的序列维度压缩 - 通过压缩映射将长序列的 KV 表示凝练为紧凑的摘要表示 ### 2. 密集注意力 - 在压缩后的 KV 上执行完整(密集)注意力而非稀疏注意力 - 保留全局上下文信息的完整性,避免稀疏选择可能遗漏的信息 ### 3. 设计权衡 - **优势**:更高的压缩比 → 更小的 KV cache → 更低的计算开销 - **代价**:压缩过程中的信息损失(由 CSA 层的局部信息补充) ## 与 CSA 的协同 在 [[hybrid-attention-architecture]] 中,CSA 和 HCA 交替或分层部署: - CSA 层负责保留局部和稀疏全局信息 - HCA 层负责捕获密集全局上下文 - 两者互补,共同实现长上下文下的高效推理 ## 工程实现 - FP4 精度用于索引器中的注意力计算 - BF16/FP8 混合精度用于 KV 表示 - RoPE 位置编码维度隔离用于进一步压缩 ## 相关概念 - [[compressed-sparse-attention]] — CSA 压缩稀疏注意力 - [[hybrid-attention-architecture]] — 混合注意力架构 - [[million-token-context]] — 百万 Token 上下文 --- *Last Updated: 2026-04-27*