476 B
476 B
DuoAttention
双模式注意力,区分检索头 (Retrieval Heads) 和流式头 (Streaming Heads)。
核心区分
- 检索头: 需要完整上下文的注意力头 → 全注意力
- 流式头: 只需局部模式的注意力头 → 滚动 KV 缓存
相关概念
- attention-sinks — 注意力汇
- kv-cache-bottleneck — 缓存优化
- mixture-of-attention-schemes — MoAS 路由方案
- llm-attention-survey-2026 — 综述参考