20260617:目前有914 页
This commit is contained in:
40
concepts/clean-conditioning-mask.md
Normal file
40
concepts/clean-conditioning-mask.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: "清洁条件掩码 (Clean-Conditioning Mask)"
|
||||
created: 2026-06-13
|
||||
updated: 2026-06-13
|
||||
type: concept
|
||||
tags: [computer-vision, video-generation, diffusion-model, architecture]
|
||||
sources: [raw/papers/cheng-flex4dhuman-2026.md]
|
||||
---
|
||||
|
||||
# 清洁条件掩码 (Clean-Conditioning Mask)
|
||||
|
||||
Flex4DHuman 中用于区分参考视图 token 与目标视图 token 的二元掩码机制,是模型理解"哪些是已知、哪些需要生成"的核心设计。
|
||||
|
||||
## 输入布局
|
||||
|
||||
每个 token 采用 36 通道特征布局:
|
||||
|
||||
| 通道 | 尺寸 | 参考视图 | 目标视图 |
|
||||
|------|------|---------|---------|
|
||||
| Noisy latent | 16 ch | 噪声 latent | 噪声 latent |
|
||||
| Clean latent | 16 ch | 编码的参考 latent | **全零** |
|
||||
| 条件掩码 | 4 ch | **全一** | **全零** |
|
||||
|
||||
## 工作原理
|
||||
|
||||
- **训练时**:参考视图 token 的清洁潜在和掩码使它们成为"已知条件"——模型学习在去噪目标视图 token 时利用这些条件,同时保留参考视图不变
|
||||
- **推理时**:相同的机制被复用于 [[temporal-rollout|时间滚动展开]]——前一个 chunk 的预测帧作为下一个 chunk 的「清洁历史 token」
|
||||
- **信息流**:单次注意力操作中,信息在时间和视角维度上双向传播
|
||||
|
||||
## 从 Wan 2.1 的适配
|
||||
|
||||
原始 Wan 2.1 T2V 期望 16 通道输入。Flex4DHuman 通过以下方式扩展到 36 通道:
|
||||
- 复制预训练权重到原始 16 通道位置
|
||||
- 新增 20 通道参数用零初始化
|
||||
|
||||
## 参考
|
||||
|
||||
- [[flex4dhuman|Flex4DHuman]] — 提出该设计的模型
|
||||
- [[temporal-rollout|时间滚动展开]] — 推理时重用清洁历史
|
||||
- [[teacher-forced-history|教师强制历史]] — 训练时的清洁历史策略
|
||||
Reference in New Issue
Block a user