Files
myWiki/concepts/temporal-rollout.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
时间滚动展开 (Temporal Rollout) 2026-06-13 2026-06-13 concept
computer-vision
video-generation
inference-technique
raw/papers/cheng-flex4dhuman-2026.md

时间滚动展开 (Temporal Rollout)

Flex4DHuman 用于生成长于训练窗口的多视角视频的推理策略,通过分块+重叠的方式实现任意长度的持续生成。

机制

将完整生成序列切分为多个 T 帧的 chunk逐块去噪并在块间共享重叠帧作为历史条件

  1. Iteration 0:使用参考视图 token 作为唯一清洁条件,生成第一个 T 帧 chunk所有目标视图
  2. Iteration 1+:窗口前进 T-O 帧,前一 chunk 的最后 O 帧预测作为当前 chunk 的清洁历史 token
  3. 循环:重复直到覆盖目标总帧数

关键参数

  • T:每块帧数(训练中见过的最大帧数:如 4 或 16
  • O:重叠帧数(通常 O=1
  • n_history:历史 token 数(= O × 视图数)

实验发现

在 DNA-Rendering 测试中42 帧窗口):

配置 PSNR 说明
T=4, O=1 (14 次迭代) 24.79 dB 更多迭代,更小 chunk
T=16, O=1 (3 次迭代) 24.86 dB 更少迭代,更大 chunk

两种设置的 PSNR 几乎相同,说明:

  • 教师强制历史足以支持稳定长程展开
  • 短 chunk 方案T=4提供更内存友好的多视角密集生成操作点

关键设计

  • 清洁历史 token:不使用模型自己的噪声预测作为历史,而是使用前一 chunk 完整去噪后的清洁帧——避免误差累积
  • 与训练一致teacher-forced-history训练使模型习惯清洁历史条件
  • 视图同步:所有视角同步推进,保持跨视角时序一致性

参考