Files
myWiki/concepts/socialvideo-bench.md

48 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "SocialVideo Bench"
created: 2026-06-20
updated: 2026-06-20
type: concept
tags: ["benchmark", "evaluation", "social-video", "audio-visual"]
sources: ["https://arxiv.org/abs/2606.17800"]
---
# SocialVideo Bench
**SocialVideo Bench** 是 [[maineCoon|MaineCoon]] 提出的首个专注**社交视频音视频生成**的 benchmark用 9 项指标覆盖视觉、音频、同步和社交视频和谐度。
## 9 项评估指标
五大维度,九项指标:
### 视觉质量
- 视觉保真度、清晰度、运动质量
### 音频质量
- 语音清晰度、音频保真度
### 音视频对齐
- **Lip-Sync Accuracy**:唇动与语音的时间同步
- **AV Temporal Alignment**:音频事件与视觉事件的时序匹配
### 运动
- 运动连贯性、运动丰富度
### 社交视频和谐度 (Social-Video Harmony)
专门针对社交视频的复合指标衡量内容是否符合社交视频的「liveness」特质——眼神、表情、对话节奏、情感共鸣的综合评估。
## 对比基线
MaineCoon 在 SocialVideo Bench 上与 7 个代表性开源音视频生成模型对比:
- 在所有 9 项指标上取得 SOTA
- 同时保持最快生成速度47.5 FPS
## 意义
在 SocialVideo Bench 之前,音视频生成评估缺少**社交视角**:传统 benchmark 评估图像/视频质量但不衡量生成内容是否适合社交互动场景。SocialVideo Bench 填补了这一空白。
## 参考
- [[maineCoon|MaineCoon 论文]] Section 5
- [[social-video|Social Video]]
- [[social-world-model|Social World Model]]