Files
myWiki/concepts/monocular-video-to-4d.md

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
单目视频到 4D (Monocular Video to 4D) 2026-06-13 2026-06-13 concept
computer-vision
3d-reconstruction
4d-generation
video-processing
raw/papers/cheng-flex4dhuman-2026.md

单目视频到 4D (Monocular Video to 4D)

Flex4DHuman 从单目静态相机视频生成可交互动态 4D 资产的端到端管线,代表了从"需要多相机采集设备"到"随手拍即可生成 4D"的范式转变。

完整管线

单目视频(静态相机)
    ↓
Flex4DHuman 多视角视频生成 → 同步密集多视角视频
    ↓
MatAnyone2 前景分割 → 提取主体前景
    ↓
FreeTimeGS 4D 重建 → 动态高斯泼溅4DGS
    ↓
Marble 场景组合 → 置入生成的 3D 世界
    ↓
SparkJS 浏览器渲染 → 可交互浏览

各阶段详解

  1. 多视角生成Flex4DHuman用户指定目标相机位姿模型生成所有目标视角的同步视频
  2. 前景分割MatAnyone2从生成的多视角视频中提取主体分离前景和背景
  3. 4D 重建FreeTimeGS从多视角视频重建 4d-gaussian-splatting 表示——支持任意时间/视角的自由视点渲染
  4. 场景组合Marble将重建的 4D 角色置入生成的 3D 场景
  5. 交互渲染SparkJS浏览器端实时渲染支持游戏引擎级交互

意义

  • 降低采集门槛:从多相机采集设备 → 单目手机拍摄
  • 生成式重建:不依赖显式几何先验(骨骼/深度/法线),生成即重建
  • 端到端可组合4D 资产可直接嵌入 3D 世界,用于 AR/VR、游戏、模拟

参考