24 lines
780 B
Markdown
24 lines
780 B
Markdown
# 旋转位置编码 (RoPE)
|
|
|
|
**Rotary Position Embedding**,由苏剑林等 2021 年提出,通过旋转变换将位置信息编码到注意力计算中。
|
|
|
|
## 核心机制
|
|
|
|
RoPE 在 Q 和 K 向量上施加位置相关的旋转变换:
|
|
- 位置 m 的 Q 旋转 m·θ
|
|
- 位置 n 的 K 旋转 n·θ
|
|
- QK^T 内的内积只依赖于相对位置 m-n
|
|
|
|
## 优势
|
|
|
|
1. **相对位置**: 天然捕捉相对位置关系
|
|
2. **外推性**: 通过 NTK-aware 插值可外推到更长序列
|
|
3. **效率**: 计算开销极低,无需额外参数
|
|
4. **广泛采用**: LLaMA、DeepSeek、Qwen 等主流模型的标准选择
|
|
|
|
## 相关概念
|
|
|
|
- [[ntk-aware-interpolation]] — RoPE 外推技术
|
|
- [[multi-head-attention]] — MHA 通常搭配 RoPE
|
|
- [[llm-attention-survey-2026]] — 综述参考
|