Files
myWiki/papers/maineCoon.md

4.1 KiB
Raw Blame History

title, created, updated, type, tags, sources, venue, authors
title created updated type tags sources venue authors
MaineCoon: Real-Time Audio-Visual Social World Model 2026-06-20 2026-06-20 paper
audio-visual
streaming
social
world-model
video-generation
real-time
autoregressive
https://arxiv.org/abs/2606.17800
arXiv preprint (cs.CV, 2026) Catnip AI Team

MaineCoon: Real-Time Audio-Visual Social World Model

一句话:首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU),定义并首次实现 social-world-model 范式。

核心贡献

MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变:

维度 传统 DiT 视频模型 MaineCoon
生成模式 离线、双向时间注意力 实时流式、因果自回归
模态 仅视频或音频为条件 音视频联合生成 + 同步
帧率 离线渲染 47.5 FPS 单卡实时
长度 数秒 千秒级 (~45 分钟)
成本 高昂 <$0.001/秒
交互 亚秒级交互

范式定义Social World Model

social-world-model 是一种理解、模拟、回应人类社交动态的生成范式。不同于预测物理环境的传统世界模型(world-models-rl)或 LeCun 的感知世界模型(world-model-lecun),社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。

方法要点

1. 无需 Teacher Forcing 的流式训练

传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练:

  • self-resampling:模型以自己生成的退化历史为条件,而非纯净 ground-truth
  • 消除 train-test gap使模型对部署时的长时退化鲁棒

2. 跨模态表示对齐

通过 jepa teacher 的 token relation distillation 加速训练:

  • 对齐视觉 token 之间的成对关系,而非绝对特征值
  • 仅在视觉流上施加,音频流不受约束
  • 大幅加速语义结构的涌现

3. Specialize-then-Consolidate 后训练

  • Phase 15 个域(远镜、多人对话、运动、动画、舞蹈)各训一个 LoRA DPO expert
  • Phase 2reinforced-online-policy-distillation 将专家合并为单一部署策略
    • Verifier 对学生候选打分 → 自动加权域专家干预程度
    • 全部失败→最大专家权重(α);全部成功→零专家干预

4. Agentic 流式推理框架

三个 agentic 控制器包裹冻结生成器(训练无关):

  • Director (Planner & Observer)Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + forward-repair-ladder
  • Cache Manager:管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control
  • Buffer Controllerpace gate 管理生成 lead吸收抖动保护播放流畅度

SocialVideo Bench

首个专注社交视频生成的 benchmark9 项指标覆盖:

  • 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度
  • MaineCoon 在所有指标上超越 7 个开源 baseline

开源与资源

相关概念