52 lines
1.4 KiB
Markdown
52 lines
1.4 KiB
Markdown
---
|
||
title: "SSM 多头结构 (Head Structure for SSMs)"
|
||
created: 2026-06-18
|
||
updated: 2026-06-18
|
||
type: concept
|
||
tags: [ssm, attention, architecture, parallelism]
|
||
sources:
|
||
- dao-transformers-are-ssms-2024
|
||
---
|
||
|
||
# SSM 多头结构 (Head Structure for SSMs)
|
||
|
||
Dao & Gu (2024) 将 Transformer 的"多头"概念系统化引入 SSM 设计空间,形成了 Mamba 块结构的架构词汇。
|
||
|
||
## 三种 Head 结构
|
||
|
||
### MIS:多输入 SSM(Multi-Input SSM)
|
||
- Mamba 的原始设计
|
||
- 等价于多值注意力(MVA)
|
||
- P 个独立 SSM 并行,共享输入但独立参数
|
||
|
||
### MVA:多值注意力(Multi-Value Attention)
|
||
- 多头注意力的变体
|
||
- 与 MIS 等价——SSD 对偶的体现
|
||
|
||
### GVA:分组值注意力(Grouped-Value Attention)
|
||
- Mamba-2 采用的结构
|
||
- 介于 MHA(多头注意力)和 MQA(多查询注意力)之间
|
||
- 更灵活的张量并行支持
|
||
|
||
## 对张量并行的意义
|
||
|
||
Mamba-2 通过 GVA 结构实现了:
|
||
- **所有数据依赖投影在块开头并行执行**
|
||
- **同步点从每块 2 个减少到 1 个**
|
||
- 支持 Megatron 风格的模型并行
|
||
|
||
## 设计空间
|
||
|
||
| 结构 | 参数效率 | 并行友好 | 代表 |
|
||
|------|:--:|:--:|------|
|
||
| MIS (MVA) | 中 | 一般 | Mamba |
|
||
| GVA | 高 | 最优 | Mamba-2 |
|
||
| MHA | 低 | 最优 | Transformer |
|
||
|
||
## 参考
|
||
|
||
- [[mamba-2|Mamba-2]]
|
||
- [[structured-state-space-duality|SSD]]
|
||
- [[mamba-ssm|Mamba]]
|
||
- [[dao-transformers-are-ssms-2024|论文]]
|