Files
myWiki/concepts/monocular-video-to-4d.md

49 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "单目视频到 4D (Monocular Video to 4D)"
created: 2026-06-13
updated: 2026-06-13
type: concept
tags: [computer-vision, 3d-reconstruction, 4d-generation, video-processing]
sources: [raw/papers/cheng-flex4dhuman-2026.md]
---
# 单目视频到 4D (Monocular Video to 4D)
Flex4DHuman 从单目静态相机视频生成可交互动态 4D 资产的端到端管线,代表了从"需要多相机采集设备"到"随手拍即可生成 4D"的范式转变。
## 完整管线
```
单目视频(静态相机)
Flex4DHuman 多视角视频生成 → 同步密集多视角视频
MatAnyone2 前景分割 → 提取主体前景
FreeTimeGS 4D 重建 → 动态高斯泼溅4DGS
Marble 场景组合 → 置入生成的 3D 世界
SparkJS 浏览器渲染 → 可交互浏览
```
## 各阶段详解
1. **多视角生成**Flex4DHuman用户指定目标相机位姿模型生成所有目标视角的同步视频
2. **前景分割**MatAnyone2从生成的多视角视频中提取主体分离前景和背景
3. **4D 重建**FreeTimeGS从多视角视频重建 [[4d-gaussian-splatting|动态高斯泼溅]] 表示——支持任意时间/视角的自由视点渲染
4. **场景组合**Marble将重建的 4D 角色置入生成的 3D 场景
5. **交互渲染**SparkJS浏览器端实时渲染支持游戏引擎级交互
## 意义
- **降低采集门槛**:从多相机采集设备 → 单目手机拍摄
- **生成式重建**:不依赖显式几何先验(骨骼/深度/法线),生成即重建
- **端到端可组合**4D 资产可直接嵌入 3D 世界,用于 AR/VR、游戏、模拟
## 参考
- [[flex4dhuman|Flex4DHuman]] — 管线第一步的核心模型
- [[4d-gaussian-splatting|动态高斯泼溅]] — 4D 表示方法
- [[freetimegs|FreeTimeGS]] — 使用的具体 4DGS 方法