SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.1 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

三阶段课程训练 (Three-Stage Curriculum Training)

2026-06-13

2026-06-13

concept

computer-vision

training

curriculum-learning

video-generation

raw/papers/cheng-flex4dhuman-2026.md

三阶段课程训练

Flex4DHuman 采用的渐进式训练策略，每个阶段初始化自前一阶段的检查点，逐步引入更复杂的生成条件。

Stage 1: 位姿跟随 (Pose Following)

设置：1 个参考视图 + 1 个目标视图，T=1，分辨率 256^2
目标：让预训练 Wan 2.1 骨干适应新的 five-axis-positional-encoding
训练量：30k 迭代
关键：最简单设置下的编码磨合

Stage 2: 动态参考视图 + 视角数外推

Stage 2.1 (256^2)

设置：N_ref ∈ {1, ..., 15}，总视图 V=16，T=1
增强：随机丢弃背景（概率 p_bg），支持前景/全场景两种模式
关键能力：动态参考视图采样 → 任意 N_ref 下的多视角一致性

Stage 2.2 (512^2)

设置：与 Stage 2.1 相同，分辨率提升
目标：更高分辨率的细节质量
训练量：Stage 2.1 和 2.2 各 30k 迭代

Stage 3: 时间滚动展开

设置：动态 V×T 布局，512^2，teacher-forced-history
多任务训练：多种 V×T 配置共享 token 预算
- Round A (32 帧预算): 32×1, 16×2, 8×4
- Round B (64 帧预算): 8×8, 4×16, 2×32
训练量：15k 迭代
关键能力：单一检查点泛化到不同视角数和时间长度

训练细节

32× H100 GPU
flow-matching 目标函数（与 Wan 2.1 相同）
Classifier-free guidance：以 0.1 概率将文本条件丢弃为零嵌入

设计理念

课程训练的核心思想是轴分离（axis-wise separation）：每个阶段引入一个新难度轴，避免同时学习多轴复杂性导致的训练不稳定。

参考

flex4dhuman — 使用该训练的模型
temporal-rollout — Stage 3 训练的推理应用
five-axis-positional-encoding — Stage 1 的适配目标