897 B
897 B
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources |
|---|---|---|---|---|---|
| 旋转位置编码 (RoPE) | 2025-04-15 | 2026-05-01 | concept |
旋转位置编码 (RoPE)
Rotary Position Embedding,由苏剑林等 2021 年提出,通过旋转变换将位置信息编码到注意力计算中。
核心机制
RoPE 在 Q 和 K 向量上施加位置相关的旋转变换:
- 位置 m 的 Q 旋转 m·θ
- 位置 n 的 K 旋转 n·θ
- QK^T 内的内积只依赖于相对位置 m-n
优势
- 相对位置: 天然捕捉相对位置关系
- 外推性: 通过 NTK-aware 插值可外推到更长序列
- 效率: 计算开销极低,无需额外参数
- 广泛采用: LLaMA、DeepSeek、Qwen 等主流模型的标准选择
相关概念
- ntk-aware-interpolation — RoPE 外推技术
- multi-head-attention — MHA 通常搭配 RoPE
- llm-attention-survey-2026 — 综述参考