--- title: "三阶段课程训练 (Three-Stage Curriculum Training)" created: 2026-06-13 updated: 2026-06-13 type: concept tags: [computer-vision, training, curriculum-learning, video-generation] sources: [raw/papers/cheng-flex4dhuman-2026.md] --- # 三阶段课程训练 Flex4DHuman 采用的渐进式训练策略,每个阶段初始化自前一阶段的检查点,逐步引入更复杂的生成条件。 ## Stage 1: 位姿跟随 (Pose Following) - **设置**:1 个参考视图 + 1 个目标视图,T=1,分辨率 256^2 - **目标**:让预训练 Wan 2.1 骨干适应新的 [[five-axis-positional-encoding|五轴位置编码]] - **训练量**:30k 迭代 - **关键**:最简单设置下的编码磨合 ## Stage 2: 动态参考视图 + 视角数外推 ### Stage 2.1 (256^2) - **设置**:N_ref ∈ {1, ..., 15},总视图 V=16,T=1 - **增强**:随机丢弃背景(概率 p_bg),支持前景/全场景两种模式 - **关键能力**:动态参考视图采样 → 任意 N_ref 下的多视角一致性 ### Stage 2.2 (512^2) - **设置**:与 Stage 2.1 相同,分辨率提升 - **目标**:更高分辨率的细节质量 - **训练量**:Stage 2.1 和 2.2 各 30k 迭代 ## Stage 3: 时间滚动展开 - **设置**:动态 V×T 布局,512^2,[[teacher-forced-history|教师强制历史]] - **多任务训练**:多种 V×T 配置共享 token 预算 - Round A (32 帧预算): 32×1, 16×2, 8×4 - Round B (64 帧预算): 8×8, 4×16, 2×32 - **训练量**:15k 迭代 - **关键能力**:单一检查点泛化到不同视角数和时间长度 ## 训练细节 - 32× H100 GPU - [[flow-matching|Flow Matching]] 目标函数(与 Wan 2.1 相同) - Classifier-free guidance:以 0.1 概率将文本条件丢弃为零嵌入 ## 设计理念 课程训练的核心思想是**轴分离**(axis-wise separation):每个阶段引入一个新难度轴,避免同时学习多轴复杂性导致的训练不稳定。 ## 参考 - [[flex4dhuman|Flex4DHuman]] — 使用该训练的模型 - [[temporal-rollout|时间滚动展开]] — Stage 3 训练的推理应用 - [[five-axis-positional-encoding|五轴位置编码]] — Stage 1 的适配目标