Files
myWiki/concepts/heavily-compressed-attention.md

53 lines
1.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Heavily Compressed Attention (HCA)"
domain: "Deep Learning / Attention Mechanisms"
tags: [attention, long-context, transformer, architecture]
sources: [[deepseek-v4-million-token-context]]
---
# Heavily Compressed Attention (HCA)
> **类型**: Concept (Tier 1 — Core)
> **来源**: [[deepseek-v4-million-token-context]]
## 定义
HCAHeavily Compressed Attention是 DeepSeek-V4 混合注意力架构中的激进压缩方案。与 [[compressed-sparse-attention]]CSA不同HCA 对 KV cache 施加更高强度的压缩,但保持密集注意力计算,以最大化全局上下文捕获效率。
## 核心机制
### 1. 高强度 KV 压缩
- 比 CSA 更激进的序列维度压缩
- 通过压缩映射将长序列的 KV 表示凝练为紧凑的摘要表示
### 2. 密集注意力
- 在压缩后的 KV 上执行完整(密集)注意力而非稀疏注意力
- 保留全局上下文信息的完整性,避免稀疏选择可能遗漏的信息
### 3. 设计权衡
- **优势**:更高的压缩比 → 更小的 KV cache → 更低的计算开销
- **代价**:压缩过程中的信息损失(由 CSA 层的局部信息补充)
## 与 CSA 的协同
在 [[hybrid-attention-architecture]] 中CSA 和 HCA 交替或分层部署:
- CSA 层负责保留局部和稀疏全局信息
- HCA 层负责捕获密集全局上下文
- 两者互补,共同实现长上下文下的高效推理
## 工程实现
- FP4 精度用于索引器中的注意力计算
- BF16/FP8 混合精度用于 KV 表示
- RoPE 位置编码维度隔离用于进一步压缩
## 相关概念
- [[compressed-sparse-attention]] — CSA 压缩稀疏注意力
- [[hybrid-attention-architecture]] — 混合注意力架构
- [[million-token-context]] — 百万 Token 上下文
---
*Last Updated: 2026-04-27*