Files
myWiki/concepts/heavily-compressed-attention.md

1.8 KiB
Raw Blame History

title, domain, tags, sources
title domain tags sources
Heavily Compressed Attention (HCA) Deep Learning / Attention Mechanisms
attention
long-context
transformer
architecture
deepseek-v4-million-token-context

Heavily Compressed Attention (HCA)

类型: Concept (Tier 1 — Core) 来源: deepseek-v4-million-token-context

定义

HCAHeavily Compressed Attention是 DeepSeek-V4 混合注意力架构中的激进压缩方案。与 compressed-sparse-attentionCSA不同HCA 对 KV cache 施加更高强度的压缩,但保持密集注意力计算,以最大化全局上下文捕获效率。

核心机制

1. 高强度 KV 压缩

  • 比 CSA 更激进的序列维度压缩
  • 通过压缩映射将长序列的 KV 表示凝练为紧凑的摘要表示

2. 密集注意力

  • 在压缩后的 KV 上执行完整(密集)注意力而非稀疏注意力
  • 保留全局上下文信息的完整性,避免稀疏选择可能遗漏的信息

3. 设计权衡

  • 优势:更高的压缩比 → 更小的 KV cache → 更低的计算开销
  • 代价:压缩过程中的信息损失(由 CSA 层的局部信息补充)

与 CSA 的协同

hybrid-attention-architectureCSA 和 HCA 交替或分层部署:

  • CSA 层负责保留局部和稀疏全局信息
  • HCA 层负责捕获密集全局上下文
  • 两者互补,共同实现长上下文下的高效推理

工程实现

  • FP4 精度用于索引器中的注意力计算
  • BF16/FP8 混合精度用于 KV 表示
  • RoPE 位置编码维度隔离用于进一步压缩

相关概念


Last Updated: 2026-04-27