50 lines
1.5 KiB
Markdown
50 lines
1.5 KiB
Markdown
---
|
||
title: "Attention Mechanism"
|
||
created: 2026-06-18
|
||
updated: 2026-06-18
|
||
type: concept
|
||
tags: ["attention", "transformer", "sequence-modeling"]
|
||
sources: ["https://arxiv.org/abs/2312.00752"]
|
||
---
|
||
|
||
# Attention Mechanism
|
||
|
||
## 定义
|
||
|
||
Attention Mechanism(注意力机制)是 Transformer 架构的核心模块(Vaswani et al., 2017),通过 query-key-value 交互实现序列中 token 之间的**内容感知信息路由**。每个 token 的注意力分布取决于其 query 与其他 token 的 key 之间的语义相似度。
|
||
|
||
## 核心公式
|
||
|
||
```
|
||
Attention(Q, K, V) = softmax(Q K^T / sqrt(d_k)) V
|
||
```
|
||
|
||
## 与 Mamba 的对比
|
||
|
||
Mamba 论文将注意力作为**内容感知推理**的参考标准:
|
||
|
||
| 维度 | Attention | Mamba (S6) |
|
||
|------|----------|-----------|
|
||
| 内容感知 | ✅(Q-K 内积天然内容依赖) | ✅(B, C, Δ 为输入的函数) |
|
||
| 复杂度 | O(n²) | O(n) |
|
||
| 机制 | token 间显式交互 | token 独立处理后选择性记忆 |
|
||
| 推理内存 | O(n) KV cache | O(1) 隐状态 |
|
||
|
||
## 核心性质
|
||
|
||
- **密集路由**:每个 token 与所有前序 token 交互 → O(n²)
|
||
- **KV Cache**:自回归推理需缓存所有历史 (k, v)
|
||
- **理论上无界上下文**:实际受内存限制
|
||
|
||
## 相关概念
|
||
|
||
- [[content-based-reasoning]] — 注意力天然具备的能力
|
||
- [[kv-cache]] — 注意力的推理内存瓶颈
|
||
- [[selective-state-space|selection mechanism]] — Mamba 的替代路径
|
||
- [[gu-mamba|Mamba 论文]]
|
||
|
||
## 参考
|
||
|
||
- Vaswani et al. (2017) "Attention Is All You Need"
|
||
- [[gu-mamba|Mamba]] (Gu & Dao, 2024)
|