Files
myWiki/papers/flex4dhuman.md

59 lines
3.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Flex4DHuman: 灵活多视角视频扩散用于 4D 人体重建"
created: 2026-06-13
updated: 2026-06-13
type: paper
tags: [computer-vision, video-generation, 3d-reconstruction, diffusion-model, human-modeling]
sources: [raw/papers/cheng-flex4dhuman-2026.md]
---
# Flex4DHuman: 灵活多视角视频扩散用于 4D 人体重建
**arXiv:** 2606.13655 · **分类:** cs.CV / cs.GR · **发布日期:** 2026-06-11
**作者:** Jen-Hao Cheng, Yipeng Wang, Hao Zhang, Gengshan Yang (World Labs), Jenq-Neng Hwang (UW)
## 核心问题
如何从单目或稀疏多视角视频中生成同步的密集多视角视频,进而重建动态 4D 资产——且不依赖人体骨骼、深度图、法线图或任何显式几何先验?
## 方法论
Flex4DHuman 将 Wan 2.1 1.3B 文本到视频 DiT 改造为多视角视频生成器,**仅通过相对相机位姿编码**来条件化生成过程:
1. **[[five-axis-positional-encoding|五轴位置编码]]**:扩展 RoPE 为 (time, view, SE(3), h, w) 五维编码——时间轴被重新分配为时间帧索引、视角槽索引、连续 SE(3) 相机几何编码
2. **[[se3-relative-camera-encoding|SE(3) 相对相机编码]]**:基于 [[prope|PRoPE]],将相机位姿编码直接注入自注意力机制,无需额外可学习参数
3. **[[clean-conditioning-mask|清洁条件掩码]]**:通过 36 通道输入16 noisy latent + 16 clean latent + 4 mask区分参考视图和目标视图
4. **[[three-stage-curriculum-training|三阶段课程训练]]**
- Stage 1: 单参考单目标,适应新位置编码
- Stage 2: 动态参考视图数 + 背景丢弃增强
- Stage 3: 动态时间窗口 + [[teacher-forced-history|教师强制历史]]
5. **[[temporal-rollout|时间滚动展开]]**:分块推理,每块与前一块有 O 帧重叠,历史帧作为清洁条件
6. **[[multi-view-captioning|多视角字幕]]**:利用 Gemini 3 Flash 为每段视频生成外观描述(共 25,031 条,平均 268 词),在训练和推理时提供文本控制
## 关键发现
- **无几何先验胜有先验**:不使用骨骼/深度/法线,超越 Diffuman4D-GT-skeleton+1.21 dB PSNR
- **参考视角鲁棒**:四个方位角(前/右/后/左)的 PSNR 波动 <1 dB
- **视角数可扩展** 124 个参考视角PSNR 25.2128.6231.90 dB 单调提升
- **跨域泛化**同一架构微调后支持动物类别DFA 数据集跨物种泛化仅降 1.8 dB
- **零样本跨设备**零样本 ActorsHQ 评估中比依赖单目骨骼估计的基线高 +3.35 dB PSNR
## 应用管线
单目视频 Flex4DHuman 多视角生成 MatAnyone2 前景分割 [[freetimegs|FreeTimeGS]] 4D 重建 [[4d-gaussian-splatting|动态高斯泼溅]] 组合到 Marble 场景 SparkJS 浏览器渲染
## 实验结果
| 数据集 | 方法 | PSNR | SSIM | LPIPS |
|--------|------|--------|--------|---------|
| DNA-Rendering | Diffuman4D-GT-skeleton | 24.23 | 0.9479 | 0.0744 |
| DNA-Rendering | **Flex4DHuman-fg** | **25.44** | **0.9516** | **0.0617** |
| ActorsHQ (零样本) | Diffuman4D-mono-skeleton | 17.97 | 0.815 | 0.307 |
| ActorsHQ (零样本) | **Flex4DHuman-fg** | **21.32** | **0.856** | **0.277** |
## 参考
- 原始存档: [raw/papers/cheng-flex4dhuman-2026.md](raw/papers/cheng-flex4dhuman-2026.md)
- 代码: 论文声称开源Code available
- 项目页: 论文中提供 Project Page 链接