title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| Attention Mechanism |
2026-06-18 |
2026-06-18 |
concept |
| attention |
| transformer |
| sequence-modeling |
|
|
Attention Mechanism
定义
Attention Mechanism(注意力机制)是 Transformer 架构的核心模块(Vaswani et al., 2017),通过 query-key-value 交互实现序列中 token 之间的内容感知信息路由。每个 token 的注意力分布取决于其 query 与其他 token 的 key 之间的语义相似度。
核心公式
与 Mamba 的对比
Mamba 论文将注意力作为内容感知推理的参考标准:
| 维度 |
Attention |
Mamba (S6) |
| 内容感知 |
✅(Q-K 内积天然内容依赖) |
✅(B, C, Δ 为输入的函数) |
| 复杂度 |
O(n²) |
O(n) |
| 机制 |
token 间显式交互 |
token 独立处理后选择性记忆 |
| 推理内存 |
O(n) KV cache |
O(1) 隐状态 |
核心性质
- 密集路由:每个 token 与所有前序 token 交互 → O(n²)
- KV Cache:自回归推理需缓存所有历史 (k, v)
- 理论上无界上下文:实际受内存限制
相关概念
参考
- Vaswani et al. (2017) "Attention Is All You Need"
- gu-mamba (Gu & Dao, 2024)