myWiki/concepts/hybrid-attention-architecture.md

---
title: "Hybrid Attention Architecture"
domain: "Deep Learning / Attention Mechanisms"
tags: [attention, long-context, transformer, architecture]
sources: [[deepseek-v4-million-token-context]]
---

# Hybrid Attention Architecture

> **类型**: Concept (Tier 2 — Foundation)
> **来源**: [[deepseek-v4-million-token-context]]

## 定义

混合注意力架构是 DeepSeek-V4 系列为解决超长上下文效率问题而设计的核心创新，它通过在 Transformer 层中交替或组合使用不同压缩策略的注意力机制，在计算效率和上下文覆盖之间取得最优平衡。

## 组成

### [[compressed-sparse-attention]] (CSA)
- KV cache 沿序列维度压缩后进行稀疏注意力
- 保留局部信息（滑动窗口）+ 选择性全局信息（稀疏选择）

### [[heavily-compressed-attention]] (HCA)
- 更高强度的 KV 压缩，但保持密集注意力
- 最大化全局上下文效率，牺牲部分局部细节

## 设计原则

1. **分层部署**：不同层采用不同注意力类型
2. **效率递进**：CSA 层保持中等压缩比，HCA 层激进压缩
3. **互补覆盖**：局部（CSA滑动窗口）+ 全局（HCA密集）= 完整上下文

## 效率数据

| 配置 | 1M 上下文 KV Cache (相对基线) |
|------|------------------------------|
| BF16 GQA8 基线 | 100% |
| DeepSeek-V3.2 | ~基线的 10% |
| DeepSeek-V4-Pro | ~基线的 2% |

## 工程实现要点

- FP4/BF16/FP8 混合精度：RoPE 维度 BF16，其他 FP8/FP4
- 闪电索引器（Lightning Indexer）用于 CSA 的 KV 选择
- Multi-Query Attention 共享 K/V

## 相关概念

- [[compressed-sparse-attention]] — CSA
- [[heavily-compressed-attention]] — HCA
- [[million-token-context]] — 百万 Token 上下文

---

*Last Updated: 2026-04-27*