# DuoAttention **双模式注意力**,区分检索头 (Retrieval Heads) 和流式头 (Streaming Heads)。 ## 核心区分 - **检索头**: 需要完整上下文的注意力头 → 全注意力 - **流式头**: 只需局部模式的注意力头 → 滚动 KV 缓存 ## 相关概念 - [[attention-sinks]] — 注意力汇 - [[kv-cache-bottleneck]] — 缓存优化 - [[mixture-of-attention-schemes]] — MoAS 路由方案 - [[llm-attention-survey-2026]] — 综述参考