1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| SSM 多头结构 (Head Structure for SSMs) | 2026-06-18 | 2026-06-18 | concept |
|
|
SSM 多头结构 (Head Structure for SSMs)
Dao & Gu (2024) 将 Transformer 的"多头"概念系统化引入 SSM 设计空间,形成了 Mamba 块结构的架构词汇。
三种 Head 结构
MIS:多输入 SSM(Multi-Input SSM)
- Mamba 的原始设计
- 等价于多值注意力(MVA)
- P 个独立 SSM 并行,共享输入但独立参数
MVA:多值注意力(Multi-Value Attention)
- 多头注意力的变体
- 与 MIS 等价——SSD 对偶的体现
GVA:分组值注意力(Grouped-Value Attention)
- Mamba-2 采用的结构
- 介于 MHA(多头注意力)和 MQA(多查询注意力)之间
- 更灵活的张量并行支持
对张量并行的意义
Mamba-2 通过 GVA 结构实现了:
- 所有数据依赖投影在块开头并行执行
- 同步点从每块 2 个减少到 1 个
- 支持 Megatron 风格的模型并行
设计空间
| 结构 | 参数效率 | 并行友好 | 代表 |
|---|---|---|---|
| MIS (MVA) | 中 | 一般 | Mamba |
| GVA | 高 | 最优 | Mamba-2 |
| MHA | 低 | 最优 | Transformer |