1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| SE(3) 相对相机编码 | 2026-06-13 | 2026-06-13 | concept |
|
|
SE(3) 相对相机编码 (SE(3) Relative Camera Encoding)
一种基于 prope 的相机位姿编码方案,将连续 SE(3) 变换直接注入自注意力机制。
核心公式
对每个 token i(关联相机位姿 Ti ∈ SE(3)),查询和键向量的 SE(3) 子切片分别变换:
Q_i^(SE(3)) ← T_i^⊤ · Q_i^(SE(3))
K_j^(SE(3)) ← T_j^(-1) · K_j^(SE(3))
其中 T_i, T_j ∈ SE(3) 为 token i 和 j 的相机位姿。注意力计算因此依赖于 token 间的相对相机变换。
设计优势
- 相对性:编码的是相机间的相对变换而非绝对位姿,天然支持任意相机布局
- 连续性:SE(3) 编码是连续函数,支持训练时未见过的相机位姿
- 零额外通道:不引入额外输入通道或可学习参数,与 ray-map / Plücker 嵌入等方法形成对比
- 旋转平移统一:SE(3) 同时编码旋转和平移,比仅编码旋转的 SO(3) 更完整
数值稳定
每序列的相机位姿被归一化:
- 所有相机相对于第一个相机表达
- 平移被缩放至单位距离
与其他相机编码对比
| 方法 | 额外参数 | 泛化性 | 分辨率耦合 |
|---|---|---|---|
| Ray-map / Plücker | 需额外输入通道 | 固定相机布局 | 是 |
| View-index embedding | 需学习嵌入 | 固定视角槽数 | 否 |
| Cross-attention 注入 | 需额外交叉注意力 | 中等 | 否 |
| SE(3) PRoPE | 零 | 任意布局 | 否 |
参考
- five-axis-positional-encoding — 作为五轴的一轴使用
- prope — 底层技术
- flex4dhuman — 应用该编码的具体模型