---
title: "三阶段课程训练 (Three-Stage Curriculum Training)"
created: 2026-06-13
updated: 2026-06-13
type: concept
tags: [computer-vision, training, curriculum-learning, video-generation]
sources: [raw/papers/cheng-flex4dhuman-2026.md]
---

# 三阶段课程训练

Flex4DHuman 采用的渐进式训练策略，每个阶段初始化自前一阶段的检查点，逐步引入更复杂的生成条件。

## Stage 1: 位姿跟随 (Pose Following)

- **设置**：1 个参考视图 + 1 个目标视图，T=1，分辨率 256^2
- **目标**：让预训练 Wan 2.1 骨干适应新的 [[five-axis-positional-encoding|五轴位置编码]]
- **训练量**：30k 迭代
- **关键**：最简单设置下的编码磨合

## Stage 2: 动态参考视图 + 视角数外推

### Stage 2.1 (256^2)
- **设置**：N_ref ∈ {1, ..., 15}，总视图 V=16，T=1
- **增强**：随机丢弃背景（概率 p_bg），支持前景/全场景两种模式
- **关键能力**：动态参考视图采样 → 任意 N_ref 下的多视角一致性

### Stage 2.2 (512^2)
- **设置**：与 Stage 2.1 相同，分辨率提升
- **目标**：更高分辨率的细节质量
- **训练量**：Stage 2.1 和 2.2 各 30k 迭代

## Stage 3: 时间滚动展开

- **设置**：动态 V×T 布局，512^2，[[teacher-forced-history|教师强制历史]]
- **多任务训练**：多种 V×T 配置共享 token 预算
  - Round A (32 帧预算): 32×1, 16×2, 8×4
  - Round B (64 帧预算): 8×8, 4×16, 2×32
- **训练量**：15k 迭代
- **关键能力**：单一检查点泛化到不同视角数和时间长度

## 训练细节

- 32× H100 GPU
- [[flow-matching|Flow Matching]] 目标函数（与 Wan 2.1 相同）
- Classifier-free guidance：以 0.1 概率将文本条件丢弃为零嵌入

## 设计理念

课程训练的核心思想是**轴分离**（axis-wise separation）：每个阶段引入一个新难度轴，避免同时学习多轴复杂性导致的训练不稳定。

## 参考

- [[flex4dhuman|Flex4DHuman]] — 使用该训练的模型
- [[temporal-rollout|时间滚动展开]] — Stage 3 训练的推理应用
- [[five-axis-positional-encoding|五轴位置编码]] — Stage 1 的适配目标