25 lines
580 B
Markdown
25 lines
580 B
Markdown
---
|
|
title: DuoAttention
|
|
created: 2025-04-15
|
|
updated: 2026-05-01
|
|
type: concept
|
|
tags: []
|
|
sources: []
|
|
---
|
|
|
|
# DuoAttention
|
|
|
|
**双模式注意力**,区分检索头 (Retrieval Heads) 和流式头 (Streaming Heads)。
|
|
|
|
## 核心区分
|
|
|
|
- **检索头**: 需要完整上下文的注意力头 → 全注意力
|
|
- **流式头**: 只需局部模式的注意力头 → 滚动 KV 缓存
|
|
|
|
## 相关概念
|
|
|
|
- [[attention-sinks]] — 注意力汇
|
|
- [[kv-cache-bottleneck]] — 缓存优化
|
|
- [[mixture-of-attention-schemes]] — MoAS 路由方案
|
|
- [[llm-attention-survey-2026]] — 综述参考
|