2.1 KiB
2.1 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 多视角字幕 (Multi-View Captioning) | 2026-06-13 | 2026-06-13 | concept |
|
|
多视角字幕 (Multi-View Captioning)
Flex4DHuman 提出的自动化外观描述数据管线——利用 Gemini 3 Flash 为多视角视频生成密集的自然语言字幕,用于训练和推理时的文本条件控制。
数据管线
- 时间窗口切分:将每段视频划分为非重叠窗口
- DNA-Rendering: 10帧/0.7秒
- ActorsHQ: 20帧/0.8秒
- DFA: 60帧/2.0秒
- 多视角网格采样:在每个窗口内均匀采样帧,构建 2×2 图像网格(前/后/左/右四个近似正交视角),背景被掩码
- Gemini 生成:将网格帧序列与 prompt 一起发送给 Gemini 3 Flash
- 人类:外观描述(体型、发色/毛发特征、服装、配饰、文字/logo)
- 动物:外观 + 行为描述(步态、头部姿态、尾巴运动)
设计决策:外观 vs 运动
论文刻意聚焦于外观而非细粒度运动描述。先导实验发现:
- 运动描述(如"向左走")在非标准相机角下容易被 Gemini 误判方向
- 错误的运动监督会干扰训练
- 外观属性在不同视角下更稳定可靠
对于动物,保留了高级行为描述(走路/小跑/跑步等身体坐标系动作),因为它们在所有视角下保持一致。
产出
| 数据集 | 序列数 | 字幕数 | 平均词数 |
|---|---|---|---|
| DNA-Rendering | 1,038 | 23,410 | 268 |
| ActorsHQ | 14 | 1,566 | 269 |
| DFA | 23 | 55 | 238 |
| 总计 | 1,075 | 25,031 | 268 |
训练使用
每个采样 clip 与其起始帧对应的时间窗口字幕配对——同一序列的不同 clip 在不同时间窗口获得不同描述,增加字幕多样性,减少对单一静态描述的过拟合。
参考
- flex4dhuman — 使用该字幕管线的模型
- three-stage-curriculum-training — 字幕在多阶段训练中的应用