1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 清洁条件掩码 (Clean-Conditioning Mask) | 2026-06-13 | 2026-06-13 | concept |
|
|
清洁条件掩码 (Clean-Conditioning Mask)
Flex4DHuman 中用于区分参考视图 token 与目标视图 token 的二元掩码机制,是模型理解"哪些是已知、哪些需要生成"的核心设计。
输入布局
每个 token 采用 36 通道特征布局:
| 通道 | 尺寸 | 参考视图 | 目标视图 |
|---|---|---|---|
| Noisy latent | 16 ch | 噪声 latent | 噪声 latent |
| Clean latent | 16 ch | 编码的参考 latent | 全零 |
| 条件掩码 | 4 ch | 全一 | 全零 |
工作原理
- 训练时:参考视图 token 的清洁潜在和掩码使它们成为"已知条件"——模型学习在去噪目标视图 token 时利用这些条件,同时保留参考视图不变
- 推理时:相同的机制被复用于 temporal-rollout——前一个 chunk 的预测帧作为下一个 chunk 的「清洁历史 token」
- 信息流:单次注意力操作中,信息在时间和视角维度上双向传播
从 Wan 2.1 的适配
原始 Wan 2.1 T2V 期望 16 通道输入。Flex4DHuman 通过以下方式扩展到 36 通道:
- 复制预训练权重到原始 16 通道位置
- 新增 20 通道参数用零初始化
参考
- flex4dhuman — 提出该设计的模型
- temporal-rollout — 推理时重用清洁历史
- teacher-forced-history — 训练时的清洁历史策略