myWiki/social-world-model.md at 6021dea160092d29b1a1f202917027e29f55465d - myWiki - SZ CodeSpace

SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

2.2 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Social World Model

2026-06-20

2026-06-20

concept

world-model

social

generation

interactive

paradigm

https://arxiv.org/abs/2606.17800

Social World Model 是 maineCoon 提出的生成范式：一种理解、模拟、回应人类社交动态的生成模型。它将 Gen AI 从被动的「内容生产工具」转变为人类社交网络中主动互动的参与者。

与传统世界模型的区别

维度	传统世界模型	社交世界模型
预测对象	物理环境转变、物体轨迹	人类社交互动的「社交物理」
关键信号	视觉运动、物体状态	眼神、微表情、手势、语音节奏、情感共鸣
时间尺度	分钟级环境仿真	实时流式、亚秒级交互
模态	以视觉为主	音视频联合 + 同步
代表	[[world-models-rl	RL World Models]], [[world-model-lecun

人类社交互动有一套高度结构化的多模态行为规则：

同步性：语音 ↔ 唇动 ↔ 表情的时间对齐
情感共鸣：通过语调、表情、节奏传递情绪
对话节奏：快速对话中的轮流和应答
高参与度节奏：社交视频吸引注意力的内容密度

实现阶梯

完整社交世界模型的实现需要多层能力：

生成核心 (MaineCoon 已实现)：实时音视频流式生成
主动多模态观察：观察用户输入（文字/语音/摄像头）
内部用户状态模拟：建模用户意图、情感
记忆与规划：跨 session 的长期交互
反应预测：预测用户对生成内容的反应

意义

社交世界模型是下一代 AI-native 社交平台的技术基础。没有它，AI 只能被动生成内容；有了它，AI 可以主动参与人类社交。

参考

maineCoon — 首个社交世界模型实现
social-video — 社交世界模型的内容域定义
world-models-rl
world-model-lecun