4.1 KiB
4.1 KiB
title, created, updated, type, tags, sources, venue, authors
| title | created | updated | type | tags | sources | venue | authors | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| MaineCoon: Real-Time Audio-Visual Social World Model | 2026-06-20 | 2026-06-20 | paper |
|
|
arXiv preprint (cs.CV, 2026) | Catnip AI Team |
MaineCoon: Real-Time Audio-Visual Social World Model
一句话:首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU),定义并首次实现 social-world-model 范式。
核心贡献
MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变:
| 维度 | 传统 DiT 视频模型 | MaineCoon |
|---|---|---|
| 生成模式 | 离线、双向时间注意力 | 实时流式、因果自回归 |
| 模态 | 仅视频或音频为条件 | 音视频联合生成 + 同步 |
| 帧率 | 离线渲染 | 47.5 FPS 单卡实时 |
| 长度 | 数秒 | 千秒级 (~45 分钟) |
| 成本 | 高昂 | <$0.001/秒 |
| 交互 | 无 | 亚秒级交互 |
范式定义:Social World Model
social-world-model 是一种理解、模拟、回应人类社交动态的生成范式。不同于预测物理环境的传统世界模型(world-models-rl)或 LeCun 的感知世界模型(world-model-lecun),社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。
方法要点
1. 无需 Teacher Forcing 的流式训练
传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练:
- self-resampling:模型以自己生成的退化历史为条件,而非纯净 ground-truth
- 消除 train-test gap,使模型对部署时的长时退化鲁棒
2. 跨模态表示对齐
通过 jepa teacher 的 token relation distillation 加速训练:
- 对齐视觉 token 之间的成对关系,而非绝对特征值
- 仅在视觉流上施加,音频流不受约束
- 大幅加速语义结构的涌现
3. Specialize-then-Consolidate 后训练
- Phase 1:5 个域(远镜、多人对话、运动、动画、舞蹈)各训一个 LoRA DPO expert
- Phase 2:reinforced-online-policy-distillation 将专家合并为单一部署策略
- Verifier 对学生候选打分 → 自动加权域专家干预程度
- 全部失败→最大专家权重(α);全部成功→零专家干预
4. Agentic 流式推理框架
三个 agentic 控制器包裹冻结生成器(训练无关):
- Director (Planner & Observer):Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + forward-repair-ladder
- Cache Manager:管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control
- Buffer Controller:pace gate 管理生成 lead,吸收抖动,保护播放流畅度
SocialVideo Bench
首个专注社交视频生成的 benchmark,9 项指标覆盖:
- 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度
- MaineCoon 在所有指标上超越 7 个开源 baseline
开源与资源
- 项目主页:https://mainecoon.tech/
- 论文:https://arxiv.org/abs/2606.17800
- 基础模型:LTX-2.3 (22B 开源 DiT)
相关概念
- social-world-model — 核心范式
- self-resampling — 训练技术
- reinforced-online-policy-distillation — 专家合并
- agentic-streaming-inference
- agentic-cache-manager
- look-ahead-buffer-controller
- forward-repair-ladder
- socialvideo-bench
- audio-visual-representation-alignment
- domain-aware-preference-optimization
- diffusion-transformer
- audio-visual-generation
- autoregressive-video-generation
- streaming-generation
- social-video