Files
myWiki/papers/maineCoon.md

86 lines
4.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "MaineCoon: Real-Time Audio-Visual Social World Model"
created: 2026-06-20
updated: 2026-06-20
type: paper
tags: ["audio-visual", "streaming", "social", "world-model", "video-generation", "real-time", "autoregressive"]
sources: ["https://arxiv.org/abs/2606.17800"]
venue: "arXiv preprint (cs.CV, 2026)"
authors: "Catnip AI Team"
---
# MaineCoon: Real-Time Audio-Visual Social World Model
> **一句话**:首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU),定义并首次实现 [[social-world-model|社交世界模型]] 范式。
## 核心贡献
MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变:
| 维度 | 传统 DiT 视频模型 | MaineCoon |
|------|------------------|-----------|
| 生成模式 | 离线、双向时间注意力 | **实时流式**、因果自回归 |
| 模态 | 仅视频或音频为条件 | **音视频联合生成 + 同步** |
| 帧率 | 离线渲染 | **47.5 FPS** 单卡实时 |
| 长度 | 数秒 | **千秒级 (~45 分钟)** |
| 成本 | 高昂 | **<$0.001/秒** |
| 交互 | 无 | **亚秒级交互** |
### 范式定义Social World Model
[[social-world-model|社交世界模型]] 是一种**理解、模拟、回应人类社交动态**的生成范式。不同于预测物理环境的传统世界模型([[world-models-rl]])或 LeCun 的感知世界模型([[world-model-lecun]]),社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。
## 方法要点
### 1. 无需 Teacher Forcing 的流式训练
传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练:
- [[self-resampling|Self-Resampling]]:模型以自己生成的**退化历史**为条件,而非纯净 ground-truth
- 消除 train-test gap使模型对部署时的长时退化鲁棒
### 2. 跨模态表示对齐
通过 [[jepa|V-JEPA 2]] teacher 的 token relation distillation 加速训练:
- 对齐视觉 token 之间的**成对关系**,而非绝对特征值
- 仅在视觉流上施加,音频流不受约束
- 大幅加速语义结构的涌现
### 3. Specialize-then-Consolidate 后训练
- **Phase 1**5 个域(远镜、多人对话、运动、动画、舞蹈)各训一个 LoRA DPO expert
- **Phase 2**[[reinforced-online-policy-distillation|ROPD]] 将专家合并为单一部署策略
- Verifier 对学生候选打分 → 自动加权域专家干预程度
- 全部失败→最大专家权重(α);全部成功→零专家干预
### 4. Agentic 流式推理框架
三个 agentic 控制器包裹冻结生成器(训练无关):
- **Director (Planner & Observer)**Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + [[forward-repair-ladder|前向修复]]
- **Cache Manager**:管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control
- **Buffer Controller**pace gate 管理生成 lead吸收抖动保护播放流畅度
## SocialVideo Bench
首个专注社交视频生成的 benchmark9 项指标覆盖:
- 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度
- MaineCoon 在所有指标上超越 7 个开源 baseline
## 开源与资源
- 项目主页https://mainecoon.tech/
- 论文https://arxiv.org/abs/2606.17800
- 基础模型LTX-2.3 (22B 开源 DiT)
## 相关概念
- [[social-world-model|社交世界模型]] — 核心范式
- [[self-resampling|Self-Resampling]] — 训练技术
- [[reinforced-online-policy-distillation|ROPD]] — 专家合并
- [[agentic-streaming-inference|Agentic 流式推理]]
- [[agentic-cache-manager|Agentic 缓存管理]]
- [[look-ahead-buffer-controller|缓冲控制]]
- [[forward-repair-ladder|前向修复]]
- [[socialvideo-bench|SocialVideo Bench]]
- [[audio-visual-representation-alignment|音视频表示对齐]]
- [[domain-aware-preference-optimization|域感知 DPO]]
- [[diffusion-transformer|DiT]]
- [[audio-visual-generation|音视频生成]]
- [[autoregressive-video-generation|自回归视频生成]]
- [[streaming-generation|流式生成]]
- [[social-video|社交视频]]