--- title: "Streaming Generation" created: 2026-06-20 updated: 2026-06-20 type: concept tags: ["generation", "streaming", "real-time", "latency"] sources: ["https://arxiv.org/abs/2606.17800"] --- # Streaming Generation (流式生成) **Streaming Generation** 是指生成模型在推理时以连续流的方式产出内容,而非等待完整结果后一次性返回。对于视频生成,这意味着在生成仍在进行时即可开始播放。 ## 核心特征 - **Causal streaming regime**:逐块因果生成,不上溯修改已生成内容 - **Sub-second interaction**:用户输入可在亚秒级延迟内影响后续生成 - **Train-inference matched**:训练和推理使用相同的流式分布,避免 train-test gap ## 与非流式生成的对比 | 维度 | 流式生成 | 离线/批量生成 | |------|---------|-------------| | 输出方式 | 逐块输出,立即可播 | 完整视频生成后再输出 | | 交互性 | 实时交互 | 无交互 | | 计算模式 | 恒定每块成本 | 成本随长度增长 | | 典型应用 | 社交直播、实时助手 | 电影后期、短视频制作 | ## 挑战 - **长时一致性**:千秒级流式生成中的内容漂移 - **缓存管理**:如何限制 KV-cache 大小同时保留关键上下文 - **节奏控制**:生成速度与播放速度的协调(look-ahead buffer) - **单 GPU 可行性**:社交应用需要低成本部署 ## 代表性系统 - **MaineCoon**: 首个实时流式音视频生成模型([[maineCoon]]),支持千秒级生成 - 其他方向:LLM 文本流式生成(GPT 系)、语音流式 TTS ## 相关概念 - [[autoregressive-video-generation|自回归视频生成]] - [[agentic-streaming-inference|Agentic 流式推理]] - [[look-ahead-buffer-controller|先行缓冲控制]]