# 旋转位置编码 (RoPE) **Rotary Position Embedding**,由苏剑林等 2021 年提出,通过旋转变换将位置信息编码到注意力计算中。 ## 核心机制 RoPE 在 Q 和 K 向量上施加位置相关的旋转变换: - 位置 m 的 Q 旋转 m·θ - 位置 n 的 K 旋转 n·θ - QK^T 内的内积只依赖于相对位置 m-n ## 优势 1. **相对位置**: 天然捕捉相对位置关系 2. **外推性**: 通过 NTK-aware 插值可外推到更长序列 3. **效率**: 计算开销极低,无需额外参数 4. **广泛采用**: LLaMA、DeepSeek、Qwen 等主流模型的标准选择 ## 相关概念 - [[ntk-aware-interpolation]] — RoPE 外推技术 - [[multi-head-attention]] — MHA 通常搭配 RoPE - [[llm-attention-survey-2026]] — 综述参考