20260625:很多新内容
This commit is contained in:
51
concepts/head-structure-ssm.md
Normal file
51
concepts/head-structure-ssm.md
Normal file
@@ -0,0 +1,51 @@
|
||||
---
|
||||
title: "SSM 多头结构 (Head Structure for SSMs)"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: concept
|
||||
tags: [ssm, attention, architecture, parallelism]
|
||||
sources:
|
||||
- dao-transformers-are-ssms-2024
|
||||
---
|
||||
|
||||
# SSM 多头结构 (Head Structure for SSMs)
|
||||
|
||||
Dao & Gu (2024) 将 Transformer 的"多头"概念系统化引入 SSM 设计空间,形成了 Mamba 块结构的架构词汇。
|
||||
|
||||
## 三种 Head 结构
|
||||
|
||||
### MIS:多输入 SSM(Multi-Input SSM)
|
||||
- Mamba 的原始设计
|
||||
- 等价于多值注意力(MVA)
|
||||
- P 个独立 SSM 并行,共享输入但独立参数
|
||||
|
||||
### MVA:多值注意力(Multi-Value Attention)
|
||||
- 多头注意力的变体
|
||||
- 与 MIS 等价——SSD 对偶的体现
|
||||
|
||||
### GVA:分组值注意力(Grouped-Value Attention)
|
||||
- Mamba-2 采用的结构
|
||||
- 介于 MHA(多头注意力)和 MQA(多查询注意力)之间
|
||||
- 更灵活的张量并行支持
|
||||
|
||||
## 对张量并行的意义
|
||||
|
||||
Mamba-2 通过 GVA 结构实现了:
|
||||
- **所有数据依赖投影在块开头并行执行**
|
||||
- **同步点从每块 2 个减少到 1 个**
|
||||
- 支持 Megatron 风格的模型并行
|
||||
|
||||
## 设计空间
|
||||
|
||||
| 结构 | 参数效率 | 并行友好 | 代表 |
|
||||
|------|:--:|:--:|------|
|
||||
| MIS (MVA) | 中 | 一般 | Mamba |
|
||||
| GVA | 高 | 最优 | Mamba-2 |
|
||||
| MHA | 低 | 最优 | Transformer |
|
||||
|
||||
## 参考
|
||||
|
||||
- [[mamba-2|Mamba-2]]
|
||||
- [[structured-state-space-duality|SSD]]
|
||||
- [[mamba-ssm|Mamba]]
|
||||
- [[dao-transformers-are-ssms-2024|论文]]
|
||||
Reference in New Issue
Block a user