myWiki/maineCoon.md at 6021dea160092d29b1a1f202917027e29f55465d

SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

4.1 KiB

Raw Blame History

title, created, updated, type, tags, sources, venue, authors

title

created

updated

type

核心贡献

MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变：

维度	传统 DiT 视频模型	MaineCoon
生成模式	离线、双向时间注意力	实时流式、因果自回归
模态	仅视频或音频为条件	音视频联合生成 + 同步
帧率	离线渲染	47.5 FPS 单卡实时
长度	数秒	千秒级 (~45 分钟)
成本	高昂	<$0.001/秒
交互	无	亚秒级交互

范式定义：Social World Model

social-world-model 是一种理解、模拟、回应人类社交动态的生成范式。不同于预测物理环境的传统世界模型（world-models-rl）或 LeCun 的感知世界模型（world-model-lecun），社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。

方法要点

1. 无需 Teacher Forcing 的流式训练

传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练：

self-resampling：模型以自己生成的退化历史为条件，而非纯净 ground-truth
消除 train-test gap，使模型对部署时的长时退化鲁棒

2. 跨模态表示对齐

通过 jepa teacher 的 token relation distillation 加速训练：

对齐视觉 token 之间的成对关系，而非绝对特征值
仅在视觉流上施加，音频流不受约束
大幅加速语义结构的涌现

3. Specialize-then-Consolidate 后训练

Phase 1：5 个域（远镜、多人对话、运动、动画、舞蹈）各训一个 LoRA DPO expert
Phase 2：reinforced-online-policy-distillation 将专家合并为单一部署策略
- Verifier 对学生候选打分 → 自动加权域专家干预程度
- 全部失败→最大专家权重(α)；全部成功→零专家干预

4. Agentic 流式推理框架

三个 agentic 控制器包裹冻结生成器（训练无关）：

Director (Planner & Observer)：Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + forward-repair-ladder
Cache Manager：管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control
Buffer Controller：pace gate 管理生成 lead，吸收抖动，保护播放流畅度

SocialVideo Bench

首个专注社交视频生成的 benchmark，9 项指标覆盖：

视觉质量、运动、音频质量、音视频对齐、社交视频和谐度
MaineCoon 在所有指标上超越 7 个开源 baseline

开源与资源

项目主页：https://mainecoon.tech/
论文：https://arxiv.org/abs/2606.17800
基础模型：LTX-2.3 (22B 开源 DiT)

4.1 KiB Raw Blame History Unescape Escape

MaineCoon: Real-Time Audio-Visual Social World Model