title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| 单目视频到 4D (Monocular Video to 4D) |
2026-06-13 |
2026-06-13 |
concept |
| computer-vision |
| 3d-reconstruction |
| 4d-generation |
| video-processing |
|
| raw/papers/cheng-flex4dhuman-2026.md |
|
单目视频到 4D (Monocular Video to 4D)
Flex4DHuman 从单目静态相机视频生成可交互动态 4D 资产的端到端管线,代表了从"需要多相机采集设备"到"随手拍即可生成 4D"的范式转变。
完整管线
各阶段详解
- 多视角生成(Flex4DHuman):用户指定目标相机位姿,模型生成所有目标视角的同步视频
- 前景分割(MatAnyone2):从生成的多视角视频中提取主体,分离前景和背景
- 4D 重建(FreeTimeGS):从多视角视频重建 4d-gaussian-splatting 表示——支持任意时间/视角的自由视点渲染
- 场景组合(Marble):将重建的 4D 角色置入生成的 3D 场景
- 交互渲染(SparkJS):浏览器端实时渲染,支持游戏引擎级交互
意义
- 降低采集门槛:从多相机采集设备 → 单目手机拍摄
- 生成式重建:不依赖显式几何先验(骨骼/深度/法线),生成即重建
- 端到端可组合:4D 资产可直接嵌入 3D 世界,用于 AR/VR、游戏、模拟
参考