20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/se3-relative-camera-encoding.md
+++ b/concepts/se3-relative-camera-encoding.md
@@ -0,0 +1,51 @@
+---
+title: "SE(3) 相对相机编码"
+created: 2026-06-13
+updated: 2026-06-13
+type: concept
+tags: [computer-vision, camera-geometry, position-encoding, 3d-reconstruction]
+sources: [raw/papers/cheng-flex4dhuman-2026.md]
+---
+
+# SE(3) 相对相机编码 (SE(3) Relative Camera Encoding)
+
+一种基于 [[prope|PRoPE (Projective Rotary Position Encoding)]] 的相机位姿编码方案，将连续 SE(3) 变换直接注入自注意力机制。
+
+## 核心公式
+
+对每个 token i（关联相机位姿 Ti ∈ SE(3)），查询和键向量的 SE(3) 子切片分别变换：
+
+```
+Q_i^(SE(3)) ← T_i^⊤ · Q_i^(SE(3))
+K_j^(SE(3)) ← T_j^(-1) · K_j^(SE(3))
+```
+
+其中 T_i, T_j ∈ SE(3) 为 token i 和 j 的相机位姿。注意力计算因此依赖于 token 间的**相对相机变换**。
+
+## 设计优势
+
+- **相对性**：编码的是相机间的相对变换而非绝对位姿，天然支持任意相机布局
+- **连续性**：SE(3) 编码是连续函数，支持训练时未见过的相机位姿
+- **零额外通道**：不引入额外输入通道或可学习参数，与 ray-map / Plücker 嵌入等方法形成对比
+- **旋转平移统一**：SE(3) 同时编码旋转和平移，比仅编码旋转的 SO(3) 更完整
+
+## 数值稳定
+
+每序列的相机位姿被归一化：
+- 所有相机相对于**第一个相机**表达
+- 平移被缩放至单位距离
+
+## 与其他相机编码对比
+
+| 方法 | 额外参数 | 泛化性 | 分辨率耦合 |
+|------|---------|--------|-----------|
+| Ray-map / Plücker | 需额外输入通道 | 固定相机布局 | 是 |
+| View-index embedding | 需学习嵌入 | 固定视角槽数 | 否 |
+| Cross-attention 注入 | 需额外交叉注意力 | 中等 | 否 |
+| **SE(3) PRoPE** | **零** | **任意布局** | **否** |
+
+## 参考
+
+- [[five-axis-positional-encoding|五轴位置编码]] — 作为五轴的一轴使用
+- [[prope|PRoPE]] — 底层技术
+- [[flex4dhuman|Flex4DHuman]] — 应用该编码的具体模型