20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/papers/maineCoon.md
+++ b/papers/maineCoon.md
@@ -0,0 +1,85 @@
+---
+title: "MaineCoon: Real-Time Audio-Visual Social World Model"
+created: 2026-06-20
+updated: 2026-06-20
+type: paper
+tags: ["audio-visual", "streaming", "social", "world-model", "video-generation", "real-time", "autoregressive"]
+sources: ["https://arxiv.org/abs/2606.17800"]
+venue: "arXiv preprint (cs.CV, 2026)"
+authors: "Catnip AI Team"
+---
+
+# MaineCoon: Real-Time Audio-Visual Social World Model
+
+> **一句话**：首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU)，定义并首次实现 [[social-world-model|社交世界模型]] 范式。
+
+## 核心贡献
+
+MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变：
+
+| 维度 | 传统 DiT 视频模型 | MaineCoon |
+|------|------------------|-----------|
+| 生成模式 | 离线、双向时间注意力 | **实时流式**、因果自回归 |
+| 模态 | 仅视频或音频为条件 | **音视频联合生成 + 同步** |
+| 帧率 | 离线渲染 | **47.5 FPS** 单卡实时 |
+| 长度 | 数秒 | **千秒级 (~45 分钟)** |
+| 成本 | 高昂 | **<$0.001/秒** |
+| 交互 | 无 | **亚秒级交互** |
+
+### 范式定义：Social World Model
+
+[[social-world-model|社交世界模型]] 是一种**理解、模拟、回应人类社交动态**的生成范式。不同于预测物理环境的传统世界模型（[[world-models-rl]]）或 LeCun 的感知世界模型（[[world-model-lecun]]），社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。
+
+## 方法要点
+
+### 1. 无需 Teacher Forcing 的流式训练
+传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练：
+- [[self-resampling|Self-Resampling]]：模型以自己生成的**退化历史**为条件，而非纯净 ground-truth
+- 消除 train-test gap，使模型对部署时的长时退化鲁棒
+
+### 2. 跨模态表示对齐
+通过 [[jepa|V-JEPA 2]] teacher 的 token relation distillation 加速训练：
+- 对齐视觉 token 之间的**成对关系**，而非绝对特征值
+- 仅在视觉流上施加，音频流不受约束
+- 大幅加速语义结构的涌现
+
+### 3. Specialize-then-Consolidate 后训练
+- **Phase 1**：5 个域（远镜、多人对话、运动、动画、舞蹈）各训一个 LoRA DPO expert
+- **Phase 2**：[[reinforced-online-policy-distillation|ROPD]] 将专家合并为单一部署策略
+  - Verifier 对学生候选打分 → 自动加权域专家干预程度
+  - 全部失败→最大专家权重(α)；全部成功→零专家干预
+
+### 4. Agentic 流式推理框架
+三个 agentic 控制器包裹冻结生成器（训练无关）：
+- **Director (Planner & Observer)**：Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + [[forward-repair-ladder|前向修复]]
+- **Cache Manager**：管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control
+- **Buffer Controller**：pace gate 管理生成 lead，吸收抖动，保护播放流畅度
+
+## SocialVideo Bench
+
+首个专注社交视频生成的 benchmark，9 项指标覆盖：
+- 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度
+- MaineCoon 在所有指标上超越 7 个开源 baseline
+
+## 开源与资源
+
+- 项目主页：https://mainecoon.tech/
+- 论文：https://arxiv.org/abs/2606.17800
+- 基础模型：LTX-2.3 (22B 开源 DiT)
+
+## 相关概念
+- [[social-world-model|社交世界模型]] — 核心范式
+- [[self-resampling|Self-Resampling]] — 训练技术
+- [[reinforced-online-policy-distillation|ROPD]] — 专家合并
+- [[agentic-streaming-inference|Agentic 流式推理]]
+- [[agentic-cache-manager|Agentic 缓存管理]]
+- [[look-ahead-buffer-controller|缓冲控制]]
+- [[forward-repair-ladder|前向修复]]
+- [[socialvideo-bench|SocialVideo Bench]]
+- [[audio-visual-representation-alignment|音视频表示对齐]]
+- [[domain-aware-preference-optimization|域感知 DPO]]
+- [[diffusion-transformer|DiT]]
+- [[audio-visual-generation|音视频生成]]
+- [[autoregressive-video-generation|自回归视频生成]]
+- [[streaming-generation|流式生成]]
+- [[social-video|社交视频]]