48 lines
1.5 KiB
Markdown
48 lines
1.5 KiB
Markdown
---
|
||
title: "SocialVideo Bench"
|
||
created: 2026-06-20
|
||
updated: 2026-06-20
|
||
type: concept
|
||
tags: ["benchmark", "evaluation", "social-video", "audio-visual"]
|
||
sources: ["https://arxiv.org/abs/2606.17800"]
|
||
---
|
||
|
||
# SocialVideo Bench
|
||
|
||
**SocialVideo Bench** 是 [[maineCoon|MaineCoon]] 提出的首个专注**社交视频音视频生成**的 benchmark,用 9 项指标覆盖视觉、音频、同步和社交视频和谐度。
|
||
|
||
## 9 项评估指标
|
||
|
||
五大维度,九项指标:
|
||
|
||
### 视觉质量
|
||
- 视觉保真度、清晰度、运动质量
|
||
|
||
### 音频质量
|
||
- 语音清晰度、音频保真度
|
||
|
||
### 音视频对齐
|
||
- **Lip-Sync Accuracy**:唇动与语音的时间同步
|
||
- **AV Temporal Alignment**:音频事件与视觉事件的时序匹配
|
||
|
||
### 运动
|
||
- 运动连贯性、运动丰富度
|
||
|
||
### 社交视频和谐度 (Social-Video Harmony)
|
||
专门针对社交视频的复合指标,衡量内容是否符合社交视频的「liveness」特质——眼神、表情、对话节奏、情感共鸣的综合评估。
|
||
|
||
## 对比基线
|
||
|
||
MaineCoon 在 SocialVideo Bench 上与 7 个代表性开源音视频生成模型对比:
|
||
- 在所有 9 项指标上取得 SOTA
|
||
- 同时保持最快生成速度(47.5 FPS)
|
||
|
||
## 意义
|
||
|
||
在 SocialVideo Bench 之前,音视频生成评估缺少**社交视角**:传统 benchmark 评估图像/视频质量,但不衡量生成内容是否适合社交互动场景。SocialVideo Bench 填补了这一空白。
|
||
|
||
## 参考
|
||
- [[maineCoon|MaineCoon 论文]] Section 5
|
||
- [[social-video|Social Video]]
|
||
- [[social-world-model|Social World Model]]
|