20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/multi-view-captioning.md
+++ b/concepts/multi-view-captioning.md
@@ -0,0 +1,50 @@
+---
+title: "多视角字幕 (Multi-View Captioning)"
+created: 2026-06-13
+updated: 2026-06-13
+type: concept
+tags: [computer-vision, data-pipeline, video-generation, captioning]
+sources: [raw/papers/cheng-flex4dhuman-2026.md]
+---
+
+# 多视角字幕 (Multi-View Captioning)
+
+Flex4DHuman 提出的自动化外观描述数据管线——利用 Gemini 3 Flash 为多视角视频生成密集的自然语言字幕，用于训练和推理时的文本条件控制。
+
+## 数据管线
+
+1. **时间窗口切分**：将每段视频划分为非重叠窗口
+   - DNA-Rendering: 10帧/0.7秒
+   - ActorsHQ: 20帧/0.8秒
+   - DFA: 60帧/2.0秒
+2. **多视角网格采样**：在每个窗口内均匀采样帧，构建 2×2 图像网格（前/后/左/右四个近似正交视角），背景被掩码
+3. **Gemini 生成**：将网格帧序列与 prompt 一起发送给 Gemini 3 Flash
+   - 人类：外观描述（体型、发色/毛发特征、服装、配饰、文字/logo）
+   - 动物：外观 + 行为描述（步态、头部姿态、尾巴运动）
+
+## 设计决策：外观 vs 运动
+
+论文刻意聚焦于**外观**而非细粒度运动描述。先导实验发现：
+- 运动描述（如"向左走"）在非标准相机角下容易被 Gemini 误判方向
+- 错误的运动监督会干扰训练
+- 外观属性在不同视角下更稳定可靠
+
+对于动物，保留了高级行为描述（走路/小跑/跑步等身体坐标系动作），因为它们在所有视角下保持一致。
+
+## 产出
+
+| 数据集 | 序列数 | 字幕数 | 平均词数 |
+|--------|-------|--------|---------|
+| DNA-Rendering | 1,038 | 23,410 | 268 |
+| ActorsHQ | 14 | 1,566 | 269 |
+| DFA | 23 | 55 | 238 |
+| **总计** | **1,075** | **25,031** | **268** |
+
+## 训练使用
+
+每个采样 clip 与其起始帧对应的时间窗口字幕配对——同一序列的不同 clip 在不同时间窗口获得不同描述，增加字幕多样性，减少对单一静态描述的过拟合。
+
+## 参考
+
+- [[flex4dhuman|Flex4DHuman]] — 使用该字幕管线的模型
+- [[three-stage-curriculum-training|三阶段课程训练]] — 字幕在多阶段训练中的应用