---
title: "MaineCoon: Real-Time Audio-Visual Social World Model"
created: 2026-06-20
updated: 2026-06-20
type: paper
tags: ["audio-visual", "streaming", "social", "world-model", "video-generation", "real-time", "autoregressive"]
sources: ["https://arxiv.org/abs/2606.17800"]
venue: "arXiv preprint (cs.CV, 2026)"
authors: "Catnip AI Team"
---

# MaineCoon: Real-Time Audio-Visual Social World Model

> **一句话**：首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU)，定义并首次实现 [[social-world-model|社交世界模型]] 范式。

## 核心贡献

MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变：

| 维度 | 传统 DiT 视频模型 | MaineCoon |
|------|------------------|-----------|
| 生成模式 | 离线、双向时间注意力 | **实时流式**、因果自回归 |
| 模态 | 仅视频或音频为条件 | **音视频联合生成 + 同步** |
| 帧率 | 离线渲染 | **47.5 FPS** 单卡实时 |
| 长度 | 数秒 | **千秒级 (~45 分钟)** |
| 成本 | 高昂 | **<$0.001/秒** |
| 交互 | 无 | **亚秒级交互** |

### 范式定义：Social World Model

[[social-world-model|社交世界模型]] 是一种**理解、模拟、回应人类社交动态**的生成范式。不同于预测物理环境的传统世界模型（[[world-models-rl]]）或 LeCun 的感知世界模型（[[world-model-lecun]]），社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。

## 方法要点

### 1. 无需 Teacher Forcing 的流式训练
传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练：
- [[self-resampling|Self-Resampling]]：模型以自己生成的**退化历史**为条件，而非纯净 ground-truth
- 消除 train-test gap，使模型对部署时的长时退化鲁棒

### 2. 跨模态表示对齐
通过 [[jepa|V-JEPA 2]] teacher 的 token relation distillation 加速训练：
- 对齐视觉 token 之间的**成对关系**，而非绝对特征值
- 仅在视觉流上施加，音频流不受约束
- 大幅加速语义结构的涌现

### 3. Specialize-then-Consolidate 后训练
- **Phase 1**：5 个域（远镜、多人对话、运动、动画、舞蹈）各训一个 LoRA DPO expert
- **Phase 2**：[[reinforced-online-policy-distillation|ROPD]] 将专家合并为单一部署策略
  - Verifier 对学生候选打分 → 自动加权域专家干预程度
  - 全部失败→最大专家权重(α)；全部成功→零专家干预

### 4. Agentic 流式推理框架
三个 agentic 控制器包裹冻结生成器（训练无关）：
- **Director (Planner & Observer)**：Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + [[forward-repair-ladder|前向修复]]
- **Cache Manager**：管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control
- **Buffer Controller**：pace gate 管理生成 lead，吸收抖动，保护播放流畅度

## SocialVideo Bench

首个专注社交视频生成的 benchmark，9 项指标覆盖：
- 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度
- MaineCoon 在所有指标上超越 7 个开源 baseline

## 开源与资源

- 项目主页：https://mainecoon.tech/
- 论文：https://arxiv.org/abs/2606.17800
- 基础模型：LTX-2.3 (22B 开源 DiT)

## 相关概念
- [[social-world-model|社交世界模型]] — 核心范式
- [[self-resampling|Self-Resampling]] — 训练技术
- [[reinforced-online-policy-distillation|ROPD]] — 专家合并
- [[agentic-streaming-inference|Agentic 流式推理]]
- [[agentic-cache-manager|Agentic 缓存管理]]
- [[look-ahead-buffer-controller|缓冲控制]]
- [[forward-repair-ladder|前向修复]]
- [[socialvideo-bench|SocialVideo Bench]]
- [[audio-visual-representation-alignment|音视频表示对齐]]
- [[domain-aware-preference-optimization|域感知 DPO]]
- [[diffusion-transformer|DiT]]
- [[audio-visual-generation|音视频生成]]
- [[autoregressive-video-generation|自回归视频生成]]
- [[streaming-generation|流式生成]]
- [[social-video|社交视频]]