--- title: "SSM 多头结构 (Head Structure for SSMs)" created: 2026-06-18 updated: 2026-06-18 type: concept tags: [ssm, attention, architecture, parallelism] sources: - dao-transformers-are-ssms-2024 --- # SSM 多头结构 (Head Structure for SSMs) Dao & Gu (2024) 将 Transformer 的"多头"概念系统化引入 SSM 设计空间,形成了 Mamba 块结构的架构词汇。 ## 三种 Head 结构 ### MIS:多输入 SSM(Multi-Input SSM) - Mamba 的原始设计 - 等价于多值注意力(MVA) - P 个独立 SSM 并行,共享输入但独立参数 ### MVA:多值注意力(Multi-Value Attention) - 多头注意力的变体 - 与 MIS 等价——SSD 对偶的体现 ### GVA:分组值注意力(Grouped-Value Attention) - Mamba-2 采用的结构 - 介于 MHA(多头注意力)和 MQA(多查询注意力)之间 - 更灵活的张量并行支持 ## 对张量并行的意义 Mamba-2 通过 GVA 结构实现了: - **所有数据依赖投影在块开头并行执行** - **同步点从每块 2 个减少到 1 个** - 支持 Megatron 风格的模型并行 ## 设计空间 | 结构 | 参数效率 | 并行友好 | 代表 | |------|:--:|:--:|------| | MIS (MVA) | 中 | 一般 | Mamba | | GVA | 高 | 最优 | Mamba-2 | | MHA | 低 | 最优 | Transformer | ## 参考 - [[mamba-2|Mamba-2]] - [[structured-state-space-duality|SSD]] - [[mamba-ssm|Mamba]] - [[dao-transformers-are-ssms-2024|论文]]