SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

清洁条件掩码 (Clean-Conditioning Mask)

2026-06-13

2026-06-13

concept

computer-vision

video-generation

diffusion-model

architecture

raw/papers/cheng-flex4dhuman-2026.md

清洁条件掩码 (Clean-Conditioning Mask)

Flex4DHuman 中用于区分参考视图 token 与目标视图 token 的二元掩码机制，是模型理解"哪些是已知、哪些需要生成"的核心设计。

输入布局

每个 token 采用 36 通道特征布局：

通道	尺寸	参考视图	目标视图
Noisy latent	16 ch	噪声 latent	噪声 latent
Clean latent	16 ch	编码的参考 latent	全零
条件掩码	4 ch	全一	全零

工作原理

训练时：参考视图 token 的清洁潜在和掩码使它们成为"已知条件"——模型学习在去噪目标视图 token 时利用这些条件，同时保留参考视图不变
推理时：相同的机制被复用于 temporal-rollout——前一个 chunk 的预测帧作为下一个 chunk 的「清洁历史 token」
信息流：单次注意力操作中，信息在时间和视角维度上双向传播

从 Wan 2.1 的适配

原始 Wan 2.1 T2V 期望 16 通道输入。Flex4DHuman 通过以下方式扩展到 36 通道：

复制预训练权重到原始 16 通道位置
新增 20 通道参数用零初始化

参考

flex4dhuman — 提出该设计的模型
temporal-rollout — 推理时重用清洁历史
teacher-forced-history — 训练时的清洁历史策略