20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

85
papers/maineCoon.md Normal file
View File

@@ -0,0 +1,85 @@
---
title: "MaineCoon: Real-Time Audio-Visual Social World Model"
created: 2026-06-20
updated: 2026-06-20
type: paper
tags: ["audio-visual", "streaming", "social", "world-model", "video-generation", "real-time", "autoregressive"]
sources: ["https://arxiv.org/abs/2606.17800"]
venue: "arXiv preprint (cs.CV, 2026)"
authors: "Catnip AI Team"
---
# MaineCoon: Real-Time Audio-Visual Social World Model
> **一句话**:首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU),定义并首次实现 [[social-world-model|社交世界模型]] 范式。
## 核心贡献
MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变:
| 维度 | 传统 DiT 视频模型 | MaineCoon |
|------|------------------|-----------|
| 生成模式 | 离线、双向时间注意力 | **实时流式**、因果自回归 |
| 模态 | 仅视频或音频为条件 | **音视频联合生成 + 同步** |
| 帧率 | 离线渲染 | **47.5 FPS** 单卡实时 |
| 长度 | 数秒 | **千秒级 (~45 分钟)** |
| 成本 | 高昂 | **<$0.001/秒** |
| 交互 | 无 | **亚秒级交互** |
### 范式定义Social World Model
[[social-world-model|社交世界模型]] 是一种**理解、模拟、回应人类社交动态**的生成范式。不同于预测物理环境的传统世界模型([[world-models-rl]])或 LeCun 的感知世界模型([[world-model-lecun]]),社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。
## 方法要点
### 1. 无需 Teacher Forcing 的流式训练
传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练:
- [[self-resampling|Self-Resampling]]:模型以自己生成的**退化历史**为条件,而非纯净 ground-truth
- 消除 train-test gap使模型对部署时的长时退化鲁棒
### 2. 跨模态表示对齐
通过 [[jepa|V-JEPA 2]] teacher 的 token relation distillation 加速训练:
- 对齐视觉 token 之间的**成对关系**,而非绝对特征值
- 仅在视觉流上施加,音频流不受约束
- 大幅加速语义结构的涌现
### 3. Specialize-then-Consolidate 后训练
- **Phase 1**5 个域(远镜、多人对话、运动、动画、舞蹈)各训一个 LoRA DPO expert
- **Phase 2**[[reinforced-online-policy-distillation|ROPD]] 将专家合并为单一部署策略
- Verifier 对学生候选打分 → 自动加权域专家干预程度
- 全部失败→最大专家权重(α);全部成功→零专家干预
### 4. Agentic 流式推理框架
三个 agentic 控制器包裹冻结生成器(训练无关):
- **Director (Planner & Observer)**Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + [[forward-repair-ladder|前向修复]]
- **Cache Manager**:管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control
- **Buffer Controller**pace gate 管理生成 lead吸收抖动保护播放流畅度
## SocialVideo Bench
首个专注社交视频生成的 benchmark9 项指标覆盖:
- 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度
- MaineCoon 在所有指标上超越 7 个开源 baseline
## 开源与资源
- 项目主页https://mainecoon.tech/
- 论文https://arxiv.org/abs/2606.17800
- 基础模型LTX-2.3 (22B 开源 DiT)
## 相关概念
- [[social-world-model|社交世界模型]] — 核心范式
- [[self-resampling|Self-Resampling]] — 训练技术
- [[reinforced-online-policy-distillation|ROPD]] — 专家合并
- [[agentic-streaming-inference|Agentic 流式推理]]
- [[agentic-cache-manager|Agentic 缓存管理]]
- [[look-ahead-buffer-controller|缓冲控制]]
- [[forward-repair-ladder|前向修复]]
- [[socialvideo-bench|SocialVideo Bench]]
- [[audio-visual-representation-alignment|音视频表示对齐]]
- [[domain-aware-preference-optimization|域感知 DPO]]
- [[diffusion-transformer|DiT]]
- [[audio-visual-generation|音视频生成]]
- [[autoregressive-video-generation|自回归视频生成]]
- [[streaming-generation|流式生成]]
- [[social-video|社交视频]]