Files
myWiki/concepts/three-stage-curriculum-training.md

2.1 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
三阶段课程训练 (Three-Stage Curriculum Training) 2026-06-13 2026-06-13 concept
computer-vision
training
curriculum-learning
video-generation
raw/papers/cheng-flex4dhuman-2026.md

三阶段课程训练

Flex4DHuman 采用的渐进式训练策略,每个阶段初始化自前一阶段的检查点,逐步引入更复杂的生成条件。

Stage 1: 位姿跟随 (Pose Following)

  • 设置1 个参考视图 + 1 个目标视图T=1分辨率 256^2
  • 目标:让预训练 Wan 2.1 骨干适应新的 five-axis-positional-encoding
  • 训练量30k 迭代
  • 关键:最简单设置下的编码磨合

Stage 2: 动态参考视图 + 视角数外推

Stage 2.1 (256^2)

  • 设置N_ref ∈ {1, ..., 15},总视图 V=16T=1
  • 增强:随机丢弃背景(概率 p_bg支持前景/全场景两种模式
  • 关键能力:动态参考视图采样 → 任意 N_ref 下的多视角一致性

Stage 2.2 (512^2)

  • 设置:与 Stage 2.1 相同,分辨率提升
  • 目标:更高分辨率的细节质量
  • 训练量Stage 2.1 和 2.2 各 30k 迭代

Stage 3: 时间滚动展开

  • 设置:动态 V×T 布局512^2teacher-forced-history
  • 多任务训练:多种 V×T 配置共享 token 预算
    • Round A (32 帧预算): 32×1, 16×2, 8×4
    • Round B (64 帧预算): 8×8, 4×16, 2×32
  • 训练量15k 迭代
  • 关键能力:单一检查点泛化到不同视角数和时间长度

训练细节

  • 32× H100 GPU
  • flow-matching 目标函数(与 Wan 2.1 相同)
  • Classifier-free guidance以 0.1 概率将文本条件丢弃为零嵌入

设计理念

课程训练的核心思想是轴分离axis-wise separation每个阶段引入一个新难度轴避免同时学习多轴复杂性导致的训练不稳定。

参考