Files
myWiki/concepts/se3-relative-camera-encoding.md

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
SE(3) 相对相机编码 2026-06-13 2026-06-13 concept
computer-vision
camera-geometry
position-encoding
3d-reconstruction
raw/papers/cheng-flex4dhuman-2026.md

SE(3) 相对相机编码 (SE(3) Relative Camera Encoding)

一种基于 prope 的相机位姿编码方案,将连续 SE(3) 变换直接注入自注意力机制。

核心公式

对每个 token i关联相机位姿 Ti ∈ SE(3)),查询和键向量的 SE(3) 子切片分别变换:

Q_i^(SE(3)) ← T_i^ · Q_i^(SE(3))
K_j^(SE(3)) ← T_j^(-1) · K_j^(SE(3))

其中 T_i, T_j ∈ SE(3) 为 token i 和 j 的相机位姿。注意力计算因此依赖于 token 间的相对相机变换

设计优势

  • 相对性:编码的是相机间的相对变换而非绝对位姿,天然支持任意相机布局
  • 连续性SE(3) 编码是连续函数,支持训练时未见过的相机位姿
  • 零额外通道:不引入额外输入通道或可学习参数,与 ray-map / Plücker 嵌入等方法形成对比
  • 旋转平移统一SE(3) 同时编码旋转和平移,比仅编码旋转的 SO(3) 更完整

数值稳定

每序列的相机位姿被归一化:

  • 所有相机相对于第一个相机表达
  • 平移被缩放至单位距离

与其他相机编码对比

方法 额外参数 泛化性 分辨率耦合
Ray-map / Plücker 需额外输入通道 固定相机布局
View-index embedding 需学习嵌入 固定视角槽数
Cross-attention 注入 需额外交叉注意力 中等
SE(3) PRoPE 任意布局

参考