86 lines
4.1 KiB
Markdown
86 lines
4.1 KiB
Markdown
---
|
||
title: "MaineCoon: Real-Time Audio-Visual Social World Model"
|
||
created: 2026-06-20
|
||
updated: 2026-06-20
|
||
type: paper
|
||
tags: ["audio-visual", "streaming", "social", "world-model", "video-generation", "real-time", "autoregressive"]
|
||
sources: ["https://arxiv.org/abs/2606.17800"]
|
||
venue: "arXiv preprint (cs.CV, 2026)"
|
||
authors: "Catnip AI Team"
|
||
---
|
||
|
||
# MaineCoon: Real-Time Audio-Visual Social World Model
|
||
|
||
> **一句话**:首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU),定义并首次实现 [[social-world-model|社交世界模型]] 范式。
|
||
|
||
## 核心贡献
|
||
|
||
MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变:
|
||
|
||
| 维度 | 传统 DiT 视频模型 | MaineCoon |
|
||
|------|------------------|-----------|
|
||
| 生成模式 | 离线、双向时间注意力 | **实时流式**、因果自回归 |
|
||
| 模态 | 仅视频或音频为条件 | **音视频联合生成 + 同步** |
|
||
| 帧率 | 离线渲染 | **47.5 FPS** 单卡实时 |
|
||
| 长度 | 数秒 | **千秒级 (~45 分钟)** |
|
||
| 成本 | 高昂 | **<$0.001/秒** |
|
||
| 交互 | 无 | **亚秒级交互** |
|
||
|
||
### 范式定义:Social World Model
|
||
|
||
[[social-world-model|社交世界模型]] 是一种**理解、模拟、回应人类社交动态**的生成范式。不同于预测物理环境的传统世界模型([[world-models-rl]])或 LeCun 的感知世界模型([[world-model-lecun]]),社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。
|
||
|
||
## 方法要点
|
||
|
||
### 1. 无需 Teacher Forcing 的流式训练
|
||
传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练:
|
||
- [[self-resampling|Self-Resampling]]:模型以自己生成的**退化历史**为条件,而非纯净 ground-truth
|
||
- 消除 train-test gap,使模型对部署时的长时退化鲁棒
|
||
|
||
### 2. 跨模态表示对齐
|
||
通过 [[jepa|V-JEPA 2]] teacher 的 token relation distillation 加速训练:
|
||
- 对齐视觉 token 之间的**成对关系**,而非绝对特征值
|
||
- 仅在视觉流上施加,音频流不受约束
|
||
- 大幅加速语义结构的涌现
|
||
|
||
### 3. Specialize-then-Consolidate 后训练
|
||
- **Phase 1**:5 个域(远镜、多人对话、运动、动画、舞蹈)各训一个 LoRA DPO expert
|
||
- **Phase 2**:[[reinforced-online-policy-distillation|ROPD]] 将专家合并为单一部署策略
|
||
- Verifier 对学生候选打分 → 自动加权域专家干预程度
|
||
- 全部失败→最大专家权重(α);全部成功→零专家干预
|
||
|
||
### 4. Agentic 流式推理框架
|
||
三个 agentic 控制器包裹冻结生成器(训练无关):
|
||
- **Director (Planner & Observer)**:Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + [[forward-repair-ladder|前向修复]]
|
||
- **Cache Manager**:管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control
|
||
- **Buffer Controller**:pace gate 管理生成 lead,吸收抖动,保护播放流畅度
|
||
|
||
## SocialVideo Bench
|
||
|
||
首个专注社交视频生成的 benchmark,9 项指标覆盖:
|
||
- 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度
|
||
- MaineCoon 在所有指标上超越 7 个开源 baseline
|
||
|
||
## 开源与资源
|
||
|
||
- 项目主页:https://mainecoon.tech/
|
||
- 论文:https://arxiv.org/abs/2606.17800
|
||
- 基础模型:LTX-2.3 (22B 开源 DiT)
|
||
|
||
## 相关概念
|
||
- [[social-world-model|社交世界模型]] — 核心范式
|
||
- [[self-resampling|Self-Resampling]] — 训练技术
|
||
- [[reinforced-online-policy-distillation|ROPD]] — 专家合并
|
||
- [[agentic-streaming-inference|Agentic 流式推理]]
|
||
- [[agentic-cache-manager|Agentic 缓存管理]]
|
||
- [[look-ahead-buffer-controller|缓冲控制]]
|
||
- [[forward-repair-ladder|前向修复]]
|
||
- [[socialvideo-bench|SocialVideo Bench]]
|
||
- [[audio-visual-representation-alignment|音视频表示对齐]]
|
||
- [[domain-aware-preference-optimization|域感知 DPO]]
|
||
- [[diffusion-transformer|DiT]]
|
||
- [[audio-visual-generation|音视频生成]]
|
||
- [[autoregressive-video-generation|自回归视频生成]]
|
||
- [[streaming-generation|流式生成]]
|
||
- [[social-video|社交视频]]
|