580 B
580 B
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources |
|---|---|---|---|---|---|
| DuoAttention | 2025-04-15 | 2026-05-01 | concept |
DuoAttention
双模式注意力,区分检索头 (Retrieval Heads) 和流式头 (Streaming Heads)。
核心区分
- 检索头: 需要完整上下文的注意力头 → 全注意力
- 流式头: 只需局部模式的注意力头 → 滚动 KV 缓存
相关概念
- attention-sinks — 注意力汇
- kv-cache-bottleneck — 缓存优化
- mixture-of-attention-schemes — MoAS 路由方案
- llm-attention-survey-2026 — 综述参考