Files
myWiki/concepts/multi-view-captioning.md

2.1 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
多视角字幕 (Multi-View Captioning) 2026-06-13 2026-06-13 concept
computer-vision
data-pipeline
video-generation
captioning
raw/papers/cheng-flex4dhuman-2026.md

多视角字幕 (Multi-View Captioning)

Flex4DHuman 提出的自动化外观描述数据管线——利用 Gemini 3 Flash 为多视角视频生成密集的自然语言字幕,用于训练和推理时的文本条件控制。

数据管线

  1. 时间窗口切分:将每段视频划分为非重叠窗口
    • DNA-Rendering: 10帧/0.7秒
    • ActorsHQ: 20帧/0.8秒
    • DFA: 60帧/2.0秒
  2. 多视角网格采样:在每个窗口内均匀采样帧,构建 2×2 图像网格(前/后/左/右四个近似正交视角),背景被掩码
  3. Gemini 生成:将网格帧序列与 prompt 一起发送给 Gemini 3 Flash
    • 人类:外观描述(体型、发色/毛发特征、服装、配饰、文字/logo
    • 动物:外观 + 行为描述(步态、头部姿态、尾巴运动)

设计决策:外观 vs 运动

论文刻意聚焦于外观而非细粒度运动描述。先导实验发现:

  • 运动描述(如"向左走")在非标准相机角下容易被 Gemini 误判方向
  • 错误的运动监督会干扰训练
  • 外观属性在不同视角下更稳定可靠

对于动物,保留了高级行为描述(走路/小跑/跑步等身体坐标系动作),因为它们在所有视角下保持一致。

产出

数据集 序列数 字幕数 平均词数
DNA-Rendering 1,038 23,410 268
ActorsHQ 14 1,566 269
DFA 23 55 238
总计 1,075 25,031 268

训练使用

每个采样 clip 与其起始帧对应的时间窗口字幕配对——同一序列的不同 clip 在不同时间窗口获得不同描述,增加字幕多样性,减少对单一静态描述的过拟合。

参考