Files
myWiki/concepts/se3-relative-camera-encoding.md

52 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "SE(3) 相对相机编码"
created: 2026-06-13
updated: 2026-06-13
type: concept
tags: [computer-vision, camera-geometry, position-encoding, 3d-reconstruction]
sources: [raw/papers/cheng-flex4dhuman-2026.md]
---
# SE(3) 相对相机编码 (SE(3) Relative Camera Encoding)
一种基于 [[prope|PRoPE (Projective Rotary Position Encoding)]] 的相机位姿编码方案,将连续 SE(3) 变换直接注入自注意力机制。
## 核心公式
对每个 token i关联相机位姿 Ti ∈ SE(3)),查询和键向量的 SE(3) 子切片分别变换:
```
Q_i^(SE(3)) ← T_i^ · Q_i^(SE(3))
K_j^(SE(3)) ← T_j^(-1) · K_j^(SE(3))
```
其中 T_i, T_j ∈ SE(3) 为 token i 和 j 的相机位姿。注意力计算因此依赖于 token 间的**相对相机变换**。
## 设计优势
- **相对性**:编码的是相机间的相对变换而非绝对位姿,天然支持任意相机布局
- **连续性**SE(3) 编码是连续函数,支持训练时未见过的相机位姿
- **零额外通道**:不引入额外输入通道或可学习参数,与 ray-map / Plücker 嵌入等方法形成对比
- **旋转平移统一**SE(3) 同时编码旋转和平移,比仅编码旋转的 SO(3) 更完整
## 数值稳定
每序列的相机位姿被归一化:
- 所有相机相对于**第一个相机**表达
- 平移被缩放至单位距离
## 与其他相机编码对比
| 方法 | 额外参数 | 泛化性 | 分辨率耦合 |
|------|---------|--------|-----------|
| Ray-map / Plücker | 需额外输入通道 | 固定相机布局 | 是 |
| View-index embedding | 需学习嵌入 | 固定视角槽数 | 否 |
| Cross-attention 注入 | 需额外交叉注意力 | 中等 | 否 |
| **SE(3) PRoPE** | **零** | **任意布局** | **否** |
## 参考
- [[five-axis-positional-encoding|五轴位置编码]] — 作为五轴的一轴使用
- [[prope|PRoPE]] — 底层技术
- [[flex4dhuman|Flex4DHuman]] — 应用该编码的具体模型