2.1 KiB
2.1 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 三阶段课程训练 (Three-Stage Curriculum Training) | 2026-06-13 | 2026-06-13 | concept |
|
|
三阶段课程训练
Flex4DHuman 采用的渐进式训练策略,每个阶段初始化自前一阶段的检查点,逐步引入更复杂的生成条件。
Stage 1: 位姿跟随 (Pose Following)
- 设置:1 个参考视图 + 1 个目标视图,T=1,分辨率 256^2
- 目标:让预训练 Wan 2.1 骨干适应新的 five-axis-positional-encoding
- 训练量:30k 迭代
- 关键:最简单设置下的编码磨合
Stage 2: 动态参考视图 + 视角数外推
Stage 2.1 (256^2)
- 设置:N_ref ∈ {1, ..., 15},总视图 V=16,T=1
- 增强:随机丢弃背景(概率 p_bg),支持前景/全场景两种模式
- 关键能力:动态参考视图采样 → 任意 N_ref 下的多视角一致性
Stage 2.2 (512^2)
- 设置:与 Stage 2.1 相同,分辨率提升
- 目标:更高分辨率的细节质量
- 训练量:Stage 2.1 和 2.2 各 30k 迭代
Stage 3: 时间滚动展开
- 设置:动态 V×T 布局,512^2,teacher-forced-history
- 多任务训练:多种 V×T 配置共享 token 预算
- Round A (32 帧预算): 32×1, 16×2, 8×4
- Round B (64 帧预算): 8×8, 4×16, 2×32
- 训练量:15k 迭代
- 关键能力:单一检查点泛化到不同视角数和时间长度
训练细节
- 32× H100 GPU
- flow-matching 目标函数(与 Wan 2.1 相同)
- Classifier-free guidance:以 0.1 概率将文本条件丢弃为零嵌入
设计理念
课程训练的核心思想是轴分离(axis-wise separation):每个阶段引入一个新难度轴,避免同时学习多轴复杂性导致的训练不稳定。
参考
- flex4dhuman — 使用该训练的模型
- temporal-rollout — Stage 3 训练的推理应用
- five-axis-positional-encoding — Stage 1 的适配目标