Files
myWiki/papers/flex4dhuman.md

3.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Flex4DHuman: 灵活多视角视频扩散用于 4D 人体重建 2026-06-13 2026-06-13 paper
computer-vision
video-generation
3d-reconstruction
diffusion-model
human-modeling
raw/papers/cheng-flex4dhuman-2026.md

Flex4DHuman: 灵活多视角视频扩散用于 4D 人体重建

arXiv: 2606.13655 · 分类: cs.CV / cs.GR · 发布日期: 2026-06-11
作者: Jen-Hao Cheng, Yipeng Wang, Hao Zhang, Gengshan Yang (World Labs), Jenq-Neng Hwang (UW)

核心问题

如何从单目或稀疏多视角视频中生成同步的密集多视角视频,进而重建动态 4D 资产——且不依赖人体骨骼、深度图、法线图或任何显式几何先验?

方法论

Flex4DHuman 将 Wan 2.1 1.3B 文本到视频 DiT 改造为多视角视频生成器,仅通过相对相机位姿编码来条件化生成过程:

  1. five-axis-positional-encoding:扩展 RoPE 为 (time, view, SE(3), h, w) 五维编码——时间轴被重新分配为时间帧索引、视角槽索引、连续 SE(3) 相机几何编码
  2. se3-relative-camera-encoding:基于 prope,将相机位姿编码直接注入自注意力机制,无需额外可学习参数
  3. clean-conditioning-mask:通过 36 通道输入16 noisy latent + 16 clean latent + 4 mask区分参考视图和目标视图
  4. three-stage-curriculum-training
    • Stage 1: 单参考单目标,适应新位置编码
    • Stage 2: 动态参考视图数 + 背景丢弃增强
    • Stage 3: 动态时间窗口 + teacher-forced-history
  5. temporal-rollout:分块推理,每块与前一块有 O 帧重叠,历史帧作为清洁条件
  6. multi-view-captioning:利用 Gemini 3 Flash 为每段视频生成外观描述(共 25,031 条,平均 268 词),在训练和推理时提供文本控制

关键发现

  • 无几何先验胜有先验:不使用骨骼/深度/法线,超越 Diffuman4D-GT-skeleton+1.21 dB PSNR
  • 参考视角鲁棒:四个方位角(前/右/后/左)的 PSNR 波动 <1 dB
  • 视角数可扩展:从 1→2→4 个参考视角PSNR 从 25.21→28.62→31.90 dB 单调提升
  • 跨域泛化同一架构微调后支持动物类别DFA 数据集,跨物种泛化仅降 1.8 dB
  • 零样本跨设备:零样本 ActorsHQ 评估中,比依赖单目骨骼估计的基线高 +3.35 dB PSNR

应用管线

单目视频 → Flex4DHuman 多视角生成 → MatAnyone2 前景分割 → freetimegs 4D 重建 → 4d-gaussian-splatting → 组合到 Marble 场景 → SparkJS 浏览器渲染

实验结果

数据集 方法 PSNR ↑ SSIM ↑ LPIPS ↓
DNA-Rendering Diffuman4D-GT-skeleton 24.23 0.9479 0.0744
DNA-Rendering Flex4DHuman-fg 25.44 0.9516 0.0617
ActorsHQ (零样本) Diffuman4D-mono-skeleton 17.97 0.815 0.307
ActorsHQ (零样本) Flex4DHuman-fg 21.32 0.856 0.277

参考