SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.1 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

多视角字幕 (Multi-View Captioning)

2026-06-13

2026-06-13

concept

computer-vision

data-pipeline

video-generation

captioning

raw/papers/cheng-flex4dhuman-2026.md

多视角字幕 (Multi-View Captioning)

Flex4DHuman 提出的自动化外观描述数据管线——利用 Gemini 3 Flash 为多视角视频生成密集的自然语言字幕，用于训练和推理时的文本条件控制。

数据管线

时间窗口切分：将每段视频划分为非重叠窗口
- DNA-Rendering: 10帧/0.7秒
- ActorsHQ: 20帧/0.8秒
- DFA: 60帧/2.0秒
多视角网格采样：在每个窗口内均匀采样帧，构建 2×2 图像网格（前/后/左/右四个近似正交视角），背景被掩码
Gemini 生成：将网格帧序列与 prompt 一起发送给 Gemini 3 Flash
- 人类：外观描述（体型、发色/毛发特征、服装、配饰、文字/logo）
- 动物：外观 + 行为描述（步态、头部姿态、尾巴运动）

设计决策：外观 vs 运动

论文刻意聚焦于外观而非细粒度运动描述。先导实验发现：

运动描述（如"向左走"）在非标准相机角下容易被 Gemini 误判方向
错误的运动监督会干扰训练
外观属性在不同视角下更稳定可靠

对于动物，保留了高级行为描述（走路/小跑/跑步等身体坐标系动作），因为它们在所有视角下保持一致。

产出

数据集	序列数	字幕数	平均词数
DNA-Rendering	1,038	23,410	268
ActorsHQ	14	1,566	269
DFA	23	55	238
总计	1,075	25,031	268

训练使用

每个采样 clip 与其起始帧对应的时间窗口字幕配对——同一序列的不同 clip 在不同时间窗口获得不同描述，增加字幕多样性，减少对单一静态描述的过拟合。

参考

flex4dhuman — 使用该字幕管线的模型
three-stage-curriculum-training — 字幕在多阶段训练中的应用