20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/monocular-video-to-4d.md
+++ b/concepts/monocular-video-to-4d.md
@@ -0,0 +1,48 @@
+---
+title: "单目视频到 4D (Monocular Video to 4D)"
+created: 2026-06-13
+updated: 2026-06-13
+type: concept
+tags: [computer-vision, 3d-reconstruction, 4d-generation, video-processing]
+sources: [raw/papers/cheng-flex4dhuman-2026.md]
+---
+
+# 单目视频到 4D (Monocular Video to 4D)
+
+Flex4DHuman 从单目静态相机视频生成可交互动态 4D 资产的端到端管线，代表了从"需要多相机采集设备"到"随手拍即可生成 4D"的范式转变。
+
+## 完整管线
+
+```
+单目视频（静态相机）
+    ↓
+Flex4DHuman 多视角视频生成 → 同步密集多视角视频
+    ↓
+MatAnyone2 前景分割 → 提取主体前景
+    ↓
+FreeTimeGS 4D 重建 → 动态高斯泼溅（4DGS）
+    ↓
+Marble 场景组合 → 置入生成的 3D 世界
+    ↓
+SparkJS 浏览器渲染 → 可交互浏览
+```
+
+## 各阶段详解
+
+1. **多视角生成**（Flex4DHuman）：用户指定目标相机位姿，模型生成所有目标视角的同步视频
+2. **前景分割**（MatAnyone2）：从生成的多视角视频中提取主体，分离前景和背景
+3. **4D 重建**（FreeTimeGS）：从多视角视频重建 [[4d-gaussian-splatting|动态高斯泼溅]] 表示——支持任意时间/视角的自由视点渲染
+4. **场景组合**（Marble）：将重建的 4D 角色置入生成的 3D 场景
+5. **交互渲染**（SparkJS）：浏览器端实时渲染，支持游戏引擎级交互
+
+## 意义
+
+- **降低采集门槛**：从多相机采集设备 → 单目手机拍摄
+- **生成式重建**：不依赖显式几何先验（骨骼/深度/法线），生成即重建
+- **端到端可组合**：4D 资产可直接嵌入 3D 世界，用于 AR/VR、游戏、模拟
+
+## 参考
+
+- [[flex4dhuman|Flex4DHuman]] — 管线第一步的核心模型
+- [[4d-gaussian-splatting|动态高斯泼溅]] — 4D 表示方法
+- [[freetimegs|FreeTimeGS]] — 使用的具体 4DGS 方法