--- title: "SocialVideo Bench" created: 2026-06-20 updated: 2026-06-20 type: concept tags: ["benchmark", "evaluation", "social-video", "audio-visual"] sources: ["https://arxiv.org/abs/2606.17800"] --- # SocialVideo Bench **SocialVideo Bench** 是 [[maineCoon|MaineCoon]] 提出的首个专注**社交视频音视频生成**的 benchmark,用 9 项指标覆盖视觉、音频、同步和社交视频和谐度。 ## 9 项评估指标 五大维度,九项指标: ### 视觉质量 - 视觉保真度、清晰度、运动质量 ### 音频质量 - 语音清晰度、音频保真度 ### 音视频对齐 - **Lip-Sync Accuracy**:唇动与语音的时间同步 - **AV Temporal Alignment**:音频事件与视觉事件的时序匹配 ### 运动 - 运动连贯性、运动丰富度 ### 社交视频和谐度 (Social-Video Harmony) 专门针对社交视频的复合指标,衡量内容是否符合社交视频的「liveness」特质——眼神、表情、对话节奏、情感共鸣的综合评估。 ## 对比基线 MaineCoon 在 SocialVideo Bench 上与 7 个代表性开源音视频生成模型对比: - 在所有 9 项指标上取得 SOTA - 同时保持最快生成速度(47.5 FPS) ## 意义 在 SocialVideo Bench 之前,音视频生成评估缺少**社交视角**:传统 benchmark 评估图像/视频质量,但不衡量生成内容是否适合社交互动场景。SocialVideo Bench 填补了这一空白。 ## 参考 - [[maineCoon|MaineCoon 论文]] Section 5 - [[social-video|Social Video]] - [[social-world-model|Social World Model]]