Files
myWiki/concepts/multi-view-captioning.md

51 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "多视角字幕 (Multi-View Captioning)"
created: 2026-06-13
updated: 2026-06-13
type: concept
tags: [computer-vision, data-pipeline, video-generation, captioning]
sources: [raw/papers/cheng-flex4dhuman-2026.md]
---
# 多视角字幕 (Multi-View Captioning)
Flex4DHuman 提出的自动化外观描述数据管线——利用 Gemini 3 Flash 为多视角视频生成密集的自然语言字幕,用于训练和推理时的文本条件控制。
## 数据管线
1. **时间窗口切分**:将每段视频划分为非重叠窗口
- DNA-Rendering: 10帧/0.7秒
- ActorsHQ: 20帧/0.8秒
- DFA: 60帧/2.0秒
2. **多视角网格采样**:在每个窗口内均匀采样帧,构建 2×2 图像网格(前/后/左/右四个近似正交视角),背景被掩码
3. **Gemini 生成**:将网格帧序列与 prompt 一起发送给 Gemini 3 Flash
- 人类:外观描述(体型、发色/毛发特征、服装、配饰、文字/logo
- 动物:外观 + 行为描述(步态、头部姿态、尾巴运动)
## 设计决策:外观 vs 运动
论文刻意聚焦于**外观**而非细粒度运动描述。先导实验发现:
- 运动描述(如"向左走")在非标准相机角下容易被 Gemini 误判方向
- 错误的运动监督会干扰训练
- 外观属性在不同视角下更稳定可靠
对于动物,保留了高级行为描述(走路/小跑/跑步等身体坐标系动作),因为它们在所有视角下保持一致。
## 产出
| 数据集 | 序列数 | 字幕数 | 平均词数 |
|--------|-------|--------|---------|
| DNA-Rendering | 1,038 | 23,410 | 268 |
| ActorsHQ | 14 | 1,566 | 269 |
| DFA | 23 | 55 | 238 |
| **总计** | **1,075** | **25,031** | **268** |
## 训练使用
每个采样 clip 与其起始帧对应的时间窗口字幕配对——同一序列的不同 clip 在不同时间窗口获得不同描述,增加字幕多样性,减少对单一静态描述的过拟合。
## 参考
- [[flex4dhuman|Flex4DHuman]] — 使用该字幕管线的模型
- [[three-stage-curriculum-training|三阶段课程训练]] — 字幕在多阶段训练中的应用