20260429:一些新东西

2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions
--- a/concepts/hybrid-attention-architecture.md
+++ b/concepts/hybrid-attention-architecture.md
@@ -0,0 +1,55 @@
+---
+title: "Hybrid Attention Architecture"
+domain: "Deep Learning / Attention Mechanisms"
+tags: [attention, long-context, transformer, architecture]
+sources: [[deepseek-v4-million-token-context]]
+---
+
+# Hybrid Attention Architecture
+
+> **类型**: Concept (Tier 2 — Foundation)
+> **来源**: [[deepseek-v4-million-token-context]]
+
+## 定义
+
+混合注意力架构是 DeepSeek-V4 系列为解决超长上下文效率问题而设计的核心创新，它通过在 Transformer 层中交替或组合使用不同压缩策略的注意力机制，在计算效率和上下文覆盖之间取得最优平衡。
+
+## 组成
+
+### [[compressed-sparse-attention]] (CSA)
+- KV cache 沿序列维度压缩后进行稀疏注意力
+- 保留局部信息（滑动窗口）+ 选择性全局信息（稀疏选择）
+
+### [[heavily-compressed-attention]] (HCA)
+- 更高强度的 KV 压缩，但保持密集注意力
+- 最大化全局上下文效率，牺牲部分局部细节
+
+## 设计原则
+
+1. **分层部署**：不同层采用不同注意力类型
+2. **效率递进**：CSA 层保持中等压缩比，HCA 层激进压缩
+3. **互补覆盖**：局部（CSA滑动窗口）+ 全局（HCA密集）= 完整上下文
+
+## 效率数据
+
+| 配置 | 1M 上下文 KV Cache (相对基线) |
+|------|------------------------------|
+| BF16 GQA8 基线 | 100% |
+| DeepSeek-V3.2 | ~基线的 10% |
+| DeepSeek-V4-Pro | ~基线的 2% |
+
+## 工程实现要点
+
+- FP4/BF16/FP8 混合精度：RoPE 维度 BF16，其他 FP8/FP4
+- 闪电索引器（Lightning Indexer）用于 CSA 的 KV 选择
+- Multi-Query Attention 共享 K/V
+
+## 相关概念
+
+- [[compressed-sparse-attention]] — CSA
+- [[heavily-compressed-attention]] — HCA
+- [[million-token-context]] — 百万 Token 上下文
+
+---
+
+*Last Updated: 2026-04-27*