---
title: "Social World Model"
created: 2026-06-20
updated: 2026-06-20
type: concept
tags: ["world-model", "social", "generation", "interactive", "paradigm"]
sources: ["https://arxiv.org/abs/2606.17800"]
---

# Social World Model (社交世界模型)

**Social World Model** 是 [[maineCoon|MaineCoon]] 提出的生成范式：一种**理解、模拟、回应人类社交动态**的生成模型。它将 Gen AI 从被动的「内容生产工具」转变为人类社交网络中**主动互动的参与者**。

## 与传统世界模型的区别

| 维度 | 传统世界模型 | 社交世界模型 |
|------|------------|------------|
| 预测对象 | 物理环境转变、物体轨迹 | 人类社交互动的「社交物理」 |
| 关键信号 | 视觉运动、物体状态 | 眼神、微表情、手势、语音节奏、情感共鸣 |
| 时间尺度 | 分钟级环境仿真 | **实时流式**、亚秒级交互 |
| 模态 | 以视觉为主 | **音视频联合** + 同步 |
| 代表 | [[world-models-rl|RL World Models]], [[world-model-lecun|JEPA]] | MaineCoon (首个) |

## 社交物理 (Social Physics)

人类社交互动有一套高度结构化的多模态行为规则：
1. **同步性**：语音 ↔ 唇动 ↔ 表情的时间对齐
2. **情感共鸣**：通过语调、表情、节奏传递情绪
3. **对话节奏**：快速对话中的轮流和应答
4. **高参与度节奏**：社交视频吸引注意力的内容密度

## 实现阶梯

完整社交世界模型的实现需要多层能力：
1. **生成核心** (MaineCoon 已实现)：实时音视频流式生成
2. **主动多模态观察**：观察用户输入（文字/语音/摄像头）
3. **内部用户状态模拟**：建模用户意图、情感
4. **记忆与规划**：跨 session 的长期交互
5. **反应预测**：预测用户对生成内容的反应

## 意义

社交世界模型是下一代 AI-native 社交平台的技术基础。没有它，AI 只能被动生成内容；有了它，AI 可以**主动参与**人类社交。

## 参考
- [[maineCoon|MaineCoon 论文]] — 首个社交世界模型实现
- [[social-video|社交视频]] — 社交世界模型的内容域定义
- [[world-models-rl]]
- [[world-model-lecun]]