20260429:一些新东西

2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions
--- a/concepts/heavily-compressed-attention.md
+++ b/concepts/heavily-compressed-attention.md
@@ -0,0 +1,52 @@
+---
+title: "Heavily Compressed Attention (HCA)"
+domain: "Deep Learning / Attention Mechanisms"
+tags: [attention, long-context, transformer, architecture]
+sources: [[deepseek-v4-million-token-context]]
+---
+
+# Heavily Compressed Attention (HCA)
+
+> **类型**: Concept (Tier 1 — Core)
+> **来源**: [[deepseek-v4-million-token-context]]
+
+## 定义
+
+HCA（Heavily Compressed Attention）是 DeepSeek-V4 混合注意力架构中的激进压缩方案。与 [[compressed-sparse-attention]]（CSA）不同，HCA 对 KV cache 施加更高强度的压缩，但保持密集注意力计算，以最大化全局上下文捕获效率。
+
+## 核心机制
+
+### 1. 高强度 KV 压缩
+- 比 CSA 更激进的序列维度压缩
+- 通过压缩映射将长序列的 KV 表示凝练为紧凑的摘要表示
+
+### 2. 密集注意力
+- 在压缩后的 KV 上执行完整（密集）注意力而非稀疏注意力
+- 保留全局上下文信息的完整性，避免稀疏选择可能遗漏的信息
+
+### 3. 设计权衡
+- **优势**：更高的压缩比 → 更小的 KV cache → 更低的计算开销
+- **代价**：压缩过程中的信息损失（由 CSA 层的局部信息补充）
+
+## 与 CSA 的协同
+
+在 [[hybrid-attention-architecture]] 中，CSA 和 HCA 交替或分层部署：
+- CSA 层负责保留局部和稀疏全局信息
+- HCA 层负责捕获密集全局上下文
+- 两者互补，共同实现长上下文下的高效推理
+
+## 工程实现
+
+- FP4 精度用于索引器中的注意力计算
+- BF16/FP8 混合精度用于 KV 表示
+- RoPE 位置编码维度隔离用于进一步压缩
+
+## 相关概念
+
+- [[compressed-sparse-attention]] — CSA 压缩稀疏注意力
+- [[hybrid-attention-architecture]] — 混合注意力架构
+- [[million-token-context]] — 百万 Token 上下文
+
+---
+
+*Last Updated: 2026-04-27*