--- title: "Attention Mechanism" created: 2026-06-18 updated: 2026-06-18 type: concept tags: ["attention", "transformer", "sequence-modeling"] sources: ["https://arxiv.org/abs/2312.00752"] --- # Attention Mechanism ## 定义 Attention Mechanism(注意力机制)是 Transformer 架构的核心模块(Vaswani et al., 2017),通过 query-key-value 交互实现序列中 token 之间的**内容感知信息路由**。每个 token 的注意力分布取决于其 query 与其他 token 的 key 之间的语义相似度。 ## 核心公式 ``` Attention(Q, K, V) = softmax(Q K^T / sqrt(d_k)) V ``` ## 与 Mamba 的对比 Mamba 论文将注意力作为**内容感知推理**的参考标准: | 维度 | Attention | Mamba (S6) | |------|----------|-----------| | 内容感知 | ✅(Q-K 内积天然内容依赖) | ✅(B, C, Δ 为输入的函数) | | 复杂度 | O(n²) | O(n) | | 机制 | token 间显式交互 | token 独立处理后选择性记忆 | | 推理内存 | O(n) KV cache | O(1) 隐状态 | ## 核心性质 - **密集路由**:每个 token 与所有前序 token 交互 → O(n²) - **KV Cache**:自回归推理需缓存所有历史 (k, v) - **理论上无界上下文**:实际受内存限制 ## 相关概念 - [[content-based-reasoning]] — 注意力天然具备的能力 - [[kv-cache]] — 注意力的推理内存瓶颈 - [[selective-state-space|selection mechanism]] — Mamba 的替代路径 - [[gu-mamba|Mamba 论文]] ## 参考 - Vaswani et al. (2017) "Attention Is All You Need" - [[gu-mamba|Mamba]] (Gu & Dao, 2024)