20260617:目前有914 页
This commit is contained in:
58
papers/flex4dhuman.md
Normal file
58
papers/flex4dhuman.md
Normal file
@@ -0,0 +1,58 @@
|
||||
---
|
||||
title: "Flex4DHuman: 灵活多视角视频扩散用于 4D 人体重建"
|
||||
created: 2026-06-13
|
||||
updated: 2026-06-13
|
||||
type: paper
|
||||
tags: [computer-vision, video-generation, 3d-reconstruction, diffusion-model, human-modeling]
|
||||
sources: [raw/papers/cheng-flex4dhuman-2026.md]
|
||||
---
|
||||
|
||||
# Flex4DHuman: 灵活多视角视频扩散用于 4D 人体重建
|
||||
|
||||
**arXiv:** 2606.13655 · **分类:** cs.CV / cs.GR · **发布日期:** 2026-06-11
|
||||
**作者:** Jen-Hao Cheng, Yipeng Wang, Hao Zhang, Gengshan Yang (World Labs), Jenq-Neng Hwang (UW)
|
||||
|
||||
## 核心问题
|
||||
|
||||
如何从单目或稀疏多视角视频中生成同步的密集多视角视频,进而重建动态 4D 资产——且不依赖人体骨骼、深度图、法线图或任何显式几何先验?
|
||||
|
||||
## 方法论
|
||||
|
||||
Flex4DHuman 将 Wan 2.1 1.3B 文本到视频 DiT 改造为多视角视频生成器,**仅通过相对相机位姿编码**来条件化生成过程:
|
||||
|
||||
1. **[[five-axis-positional-encoding|五轴位置编码]]**:扩展 RoPE 为 (time, view, SE(3), h, w) 五维编码——时间轴被重新分配为时间帧索引、视角槽索引、连续 SE(3) 相机几何编码
|
||||
2. **[[se3-relative-camera-encoding|SE(3) 相对相机编码]]**:基于 [[prope|PRoPE]],将相机位姿编码直接注入自注意力机制,无需额外可学习参数
|
||||
3. **[[clean-conditioning-mask|清洁条件掩码]]**:通过 36 通道输入(16 noisy latent + 16 clean latent + 4 mask)区分参考视图和目标视图
|
||||
4. **[[three-stage-curriculum-training|三阶段课程训练]]**:
|
||||
- Stage 1: 单参考单目标,适应新位置编码
|
||||
- Stage 2: 动态参考视图数 + 背景丢弃增强
|
||||
- Stage 3: 动态时间窗口 + [[teacher-forced-history|教师强制历史]]
|
||||
5. **[[temporal-rollout|时间滚动展开]]**:分块推理,每块与前一块有 O 帧重叠,历史帧作为清洁条件
|
||||
6. **[[multi-view-captioning|多视角字幕]]**:利用 Gemini 3 Flash 为每段视频生成外观描述(共 25,031 条,平均 268 词),在训练和推理时提供文本控制
|
||||
|
||||
## 关键发现
|
||||
|
||||
- **无几何先验胜有先验**:不使用骨骼/深度/法线,超越 Diffuman4D-GT-skeleton(+1.21 dB PSNR)
|
||||
- **参考视角鲁棒**:四个方位角(前/右/后/左)的 PSNR 波动 <1 dB
|
||||
- **视角数可扩展**:从 1→2→4 个参考视角,PSNR 从 25.21→28.62→31.90 dB 单调提升
|
||||
- **跨域泛化**:同一架构微调后支持动物类别(DFA 数据集,跨物种泛化仅降 1.8 dB)
|
||||
- **零样本跨设备**:零样本 ActorsHQ 评估中,比依赖单目骨骼估计的基线高 +3.35 dB PSNR
|
||||
|
||||
## 应用管线
|
||||
|
||||
单目视频 → Flex4DHuman 多视角生成 → MatAnyone2 前景分割 → [[freetimegs|FreeTimeGS]] 4D 重建 → [[4d-gaussian-splatting|动态高斯泼溅]] → 组合到 Marble 场景 → SparkJS 浏览器渲染
|
||||
|
||||
## 实验结果
|
||||
|
||||
| 数据集 | 方法 | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
|
||||
|--------|------|--------|--------|---------|
|
||||
| DNA-Rendering | Diffuman4D-GT-skeleton | 24.23 | 0.9479 | 0.0744 |
|
||||
| DNA-Rendering | **Flex4DHuman-fg** | **25.44** | **0.9516** | **0.0617** |
|
||||
| ActorsHQ (零样本) | Diffuman4D-mono-skeleton | 17.97 | 0.815 | 0.307 |
|
||||
| ActorsHQ (零样本) | **Flex4DHuman-fg** | **21.32** | **0.856** | **0.277** |
|
||||
|
||||
## 参考
|
||||
|
||||
- 原始存档: [raw/papers/cheng-flex4dhuman-2026.md](raw/papers/cheng-flex4dhuman-2026.md)
|
||||
- 代码: 论文声称开源(Code available)
|
||||
- 项目页: 论文中提供 Project Page 链接
|
||||
Reference in New Issue
Block a user