Files
myWiki/concepts/clean-conditioning-mask.md

1.6 KiB

title, created, updated, type, tags, sources
title created updated type tags sources
清洁条件掩码 (Clean-Conditioning Mask) 2026-06-13 2026-06-13 concept
computer-vision
video-generation
diffusion-model
architecture
raw/papers/cheng-flex4dhuman-2026.md

清洁条件掩码 (Clean-Conditioning Mask)

Flex4DHuman 中用于区分参考视图 token 与目标视图 token 的二元掩码机制,是模型理解"哪些是已知、哪些需要生成"的核心设计。

输入布局

每个 token 采用 36 通道特征布局:

通道 尺寸 参考视图 目标视图
Noisy latent 16 ch 噪声 latent 噪声 latent
Clean latent 16 ch 编码的参考 latent 全零
条件掩码 4 ch 全一 全零

工作原理

  • 训练时:参考视图 token 的清洁潜在和掩码使它们成为"已知条件"——模型学习在去噪目标视图 token 时利用这些条件,同时保留参考视图不变
  • 推理时:相同的机制被复用于 temporal-rollout——前一个 chunk 的预测帧作为下一个 chunk 的「清洁历史 token」
  • 信息流:单次注意力操作中,信息在时间和视角维度上双向传播

从 Wan 2.1 的适配

原始 Wan 2.1 T2V 期望 16 通道输入。Flex4DHuman 通过以下方式扩展到 36 通道:

  • 复制预训练权重到原始 16 通道位置
  • 新增 20 通道参数用零初始化

参考