20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/reviews/mainecoon-review-20260620.md
+++ b/reviews/mainecoon-review-20260620.md
@@ -0,0 +1,51 @@
+---
+title: "MaineCoon Review"
+created: 2026-06-20
+updated: 2026-06-20
+type: review
+tags: ["review", "audio-visual", "streaming", "world-model", "social"]
+sources: ["https://arxiv.org/abs/2606.17800"]
+paper: "mainecoon"
+---
+
+# MaineCoon Review — 2026-06-20
+
+📌 **基本信息**
+- **论文**：MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model
+- **作者**：Catnip AI Team (Lichen Bai et al., 17 人)
+- **领域**：cs.CV / 音视频生成 / 流式推理
+- **arXiv**：2606.17800 (2026-06-16)
+- **规模**：22B 参数，32 页，13 图，3 表
+
+🎯 **核心概念**
+1. **[[social-world-model|Social World Model]]** — 新生成范式：从物理世界模拟转向人类社交动态的实时音视频参与
+2. **[[self-resampling|Self-Resampling]]** — 消除自回归 train-test gap，以模型自身退化历史训练
+3. **[[reinforced-online-policy-distillation|ROPD]]** — 自适应专家合并：verifier 自动调节域专家权重
+4. **[[agentic-cache-manager|Agentic Cache Manager]]** — 单持久 KV-cache + bounded keep-set + AdaStat drift control
+5. **[[agentic-streaming-inference|Agentic Streaming Inference]]** — 训练无关三层控制器 (Director / Cache / Buffer) 包裹冻结生成器
+
+🔗 **概念网络**
+- **核心连接**：[[social-world-model]] ↔ [[self-resampling]] ↔ [[agentic-streaming-inference]] ↔ [[agentic-cache-manager]] ↔ [[reinforced-online-policy-distillation|ROPD]]
+- **伞概念锚定**：连接 [[streaming-generation]]、[[autoregressive-video-generation]]、[[audio-visual-generation]]、[[diffusion-transformer]]、[[social-video]]
+- **跨域链接**：[[jepa|V-JEPA 2]]、[[kv-cache]]、[[flow-matching]]、[[dpo]]、[[world-models-rl]]、[[world-model-lecun]]
+- **辅助概念**：[[forward-repair-ladder]]、[[look-ahead-buffer-controller]]、[[socialvideo-bench]]、[[drifting|Temporal Drift]]
+
+📚 **Wiki 集成**
+- **新增页面**：16 页（1 paper + 15 concepts）
+- **伞概念**：5 个（audio-visual-generation, autoregressive-video-generation, streaming-generation, diffusion-transformer, social-video）
+- **论文专属**：10 个（social-world-model, self-resampling, ROPD, agentic-streaming-inference, agentic-cache-manager, look-ahead-buffer-controller, forward-repair-ladder, socialvideo-bench, audio-visual-representation-alignment, domain-aware-preference-optimization）+ drifting
+- **复用已有**：5 个（world-models-rl, world-model-lecun, jepa, kv-cache, flow-matching, dpo）
+- **链接密度**：核心概念平均 5-8 个交叉引用
+- **网络完整**：100% 无断链（待验证）
+
+💡 **关键洞察**
+
+1. **范式转变：从生产工具到社交参与者**
+   MaineCoon 不仅仅是更快/更强的视频生成模型——它重新定义了生成模型在社会中的角色。传统模型是「内容生产工具」，MaineCoon 定义了「社交世界模型」范式，使 AI 成为人类社交的**主动参与者**。这一转变的意义不亚于 GPT 将语言模型从「翻译/摘要工具」变成「对话/推理 agent」。
+
+2. **架构哲学的「分离-治理」设计**
+   训练阶段 (forcing-free native streaming) 和推理阶段 (agentic controller) 展现了优雅的分离设计：generator 只负责以固定节奏持续生成；认知（规划/观察/修复）、记忆（缓存管理）、时间（节奏控制）由三个 agentic 控制器治理。这种分离使每层独立优化且无循环依赖——类似于操作系统中进程调度、内存管理、I/O 的分离。
+
+3. **社交视频的特殊性被正视**
+   论文最关键的前提判断是：社交视频 ≠ 电影视频。社交视频的价值在 liveness（临场感）而非视觉奇观。这一洞见驱动了整个技术栈的设计——从数据管线（筛选真人说话片段而非剧情片段）到评估基准（9 项指标含社交和谐度）再到模型架构（音视频联合、实时流式）。
+