--- title: "MaineCoon: Real-Time Audio-Visual Social World Model" created: 2026-06-20 updated: 2026-06-20 type: paper tags: ["audio-visual", "streaming", "social", "world-model", "video-generation", "real-time", "autoregressive"] sources: ["https://arxiv.org/abs/2606.17800"] venue: "arXiv preprint (cs.CV, 2026)" authors: "Catnip AI Team" --- # MaineCoon: Real-Time Audio-Visual Social World Model > **一句话**:首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU),定义并首次实现 [[social-world-model|社交世界模型]] 范式。 ## 核心贡献 MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变: | 维度 | 传统 DiT 视频模型 | MaineCoon | |------|------------------|-----------| | 生成模式 | 离线、双向时间注意力 | **实时流式**、因果自回归 | | 模态 | 仅视频或音频为条件 | **音视频联合生成 + 同步** | | 帧率 | 离线渲染 | **47.5 FPS** 单卡实时 | | 长度 | 数秒 | **千秒级 (~45 分钟)** | | 成本 | 高昂 | **<$0.001/秒** | | 交互 | 无 | **亚秒级交互** | ### 范式定义:Social World Model [[social-world-model|社交世界模型]] 是一种**理解、模拟、回应人类社交动态**的生成范式。不同于预测物理环境的传统世界模型([[world-models-rl]])或 LeCun 的感知世界模型([[world-model-lecun]]),社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。 ## 方法要点 ### 1. 无需 Teacher Forcing 的流式训练 传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练: - [[self-resampling|Self-Resampling]]:模型以自己生成的**退化历史**为条件,而非纯净 ground-truth - 消除 train-test gap,使模型对部署时的长时退化鲁棒 ### 2. 跨模态表示对齐 通过 [[jepa|V-JEPA 2]] teacher 的 token relation distillation 加速训练: - 对齐视觉 token 之间的**成对关系**,而非绝对特征值 - 仅在视觉流上施加,音频流不受约束 - 大幅加速语义结构的涌现 ### 3. Specialize-then-Consolidate 后训练 - **Phase 1**:5 个域(远镜、多人对话、运动、动画、舞蹈)各训一个 LoRA DPO expert - **Phase 2**:[[reinforced-online-policy-distillation|ROPD]] 将专家合并为单一部署策略 - Verifier 对学生候选打分 → 自动加权域专家干预程度 - 全部失败→最大专家权重(α);全部成功→零专家干预 ### 4. Agentic 流式推理框架 三个 agentic 控制器包裹冻结生成器(训练无关): - **Director (Planner & Observer)**:Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + [[forward-repair-ladder|前向修复]] - **Cache Manager**:管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control - **Buffer Controller**:pace gate 管理生成 lead,吸收抖动,保护播放流畅度 ## SocialVideo Bench 首个专注社交视频生成的 benchmark,9 项指标覆盖: - 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度 - MaineCoon 在所有指标上超越 7 个开源 baseline ## 开源与资源 - 项目主页:https://mainecoon.tech/ - 论文:https://arxiv.org/abs/2606.17800 - 基础模型:LTX-2.3 (22B 开源 DiT) ## 相关概念 - [[social-world-model|社交世界模型]] — 核心范式 - [[self-resampling|Self-Resampling]] — 训练技术 - [[reinforced-online-policy-distillation|ROPD]] — 专家合并 - [[agentic-streaming-inference|Agentic 流式推理]] - [[agentic-cache-manager|Agentic 缓存管理]] - [[look-ahead-buffer-controller|缓冲控制]] - [[forward-repair-ladder|前向修复]] - [[socialvideo-bench|SocialVideo Bench]] - [[audio-visual-representation-alignment|音视频表示对齐]] - [[domain-aware-preference-optimization|域感知 DPO]] - [[diffusion-transformer|DiT]] - [[audio-visual-generation|音视频生成]] - [[autoregressive-video-generation|自回归视频生成]] - [[streaming-generation|流式生成]] - [[social-video|社交视频]]