49 lines
1.8 KiB
Markdown
49 lines
1.8 KiB
Markdown
---
|
||
title: "单目视频到 4D (Monocular Video to 4D)"
|
||
created: 2026-06-13
|
||
updated: 2026-06-13
|
||
type: concept
|
||
tags: [computer-vision, 3d-reconstruction, 4d-generation, video-processing]
|
||
sources: [raw/papers/cheng-flex4dhuman-2026.md]
|
||
---
|
||
|
||
# 单目视频到 4D (Monocular Video to 4D)
|
||
|
||
Flex4DHuman 从单目静态相机视频生成可交互动态 4D 资产的端到端管线,代表了从"需要多相机采集设备"到"随手拍即可生成 4D"的范式转变。
|
||
|
||
## 完整管线
|
||
|
||
```
|
||
单目视频(静态相机)
|
||
↓
|
||
Flex4DHuman 多视角视频生成 → 同步密集多视角视频
|
||
↓
|
||
MatAnyone2 前景分割 → 提取主体前景
|
||
↓
|
||
FreeTimeGS 4D 重建 → 动态高斯泼溅(4DGS)
|
||
↓
|
||
Marble 场景组合 → 置入生成的 3D 世界
|
||
↓
|
||
SparkJS 浏览器渲染 → 可交互浏览
|
||
```
|
||
|
||
## 各阶段详解
|
||
|
||
1. **多视角生成**(Flex4DHuman):用户指定目标相机位姿,模型生成所有目标视角的同步视频
|
||
2. **前景分割**(MatAnyone2):从生成的多视角视频中提取主体,分离前景和背景
|
||
3. **4D 重建**(FreeTimeGS):从多视角视频重建 [[4d-gaussian-splatting|动态高斯泼溅]] 表示——支持任意时间/视角的自由视点渲染
|
||
4. **场景组合**(Marble):将重建的 4D 角色置入生成的 3D 场景
|
||
5. **交互渲染**(SparkJS):浏览器端实时渲染,支持游戏引擎级交互
|
||
|
||
## 意义
|
||
|
||
- **降低采集门槛**:从多相机采集设备 → 单目手机拍摄
|
||
- **生成式重建**:不依赖显式几何先验(骨骼/深度/法线),生成即重建
|
||
- **端到端可组合**:4D 资产可直接嵌入 3D 世界,用于 AR/VR、游戏、模拟
|
||
|
||
## 参考
|
||
|
||
- [[flex4dhuman|Flex4DHuman]] — 管线第一步的核心模型
|
||
- [[4d-gaussian-splatting|动态高斯泼溅]] — 4D 表示方法
|
||
- [[freetimegs|FreeTimeGS]] — 使用的具体 4DGS 方法
|