myWiki/concepts/head-structure-ssm.md

---
title: "SSM 多头结构 (Head Structure for SSMs)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [ssm, attention, architecture, parallelism]
sources:
  - dao-transformers-are-ssms-2024
---

# SSM 多头结构 (Head Structure for SSMs)

Dao & Gu (2024) 将 Transformer 的"多头"概念系统化引入 SSM 设计空间，形成了 Mamba 块结构的架构词汇。

## 三种 Head 结构

### MIS：多输入 SSM（Multi-Input SSM）
- Mamba 的原始设计
- 等价于多值注意力（MVA）
- P 个独立 SSM 并行，共享输入但独立参数

### MVA：多值注意力（Multi-Value Attention）
- 多头注意力的变体
- 与 MIS 等价——SSD 对偶的体现

### GVA：分组值注意力（Grouped-Value Attention）
- Mamba-2 采用的结构
- 介于 MHA（多头注意力）和 MQA（多查询注意力）之间
- 更灵活的张量并行支持

## 对张量并行的意义

Mamba-2 通过 GVA 结构实现了：
- **所有数据依赖投影在块开头并行执行**
- **同步点从每块 2 个减少到 1 个**
- 支持 Megatron 风格的模型并行

## 设计空间

| 结构 | 参数效率 | 并行友好 | 代表 |
|------|:--:|:--:|------|
| MIS (MVA) | 中 | 一般 | Mamba |
| GVA | 高 | 最优 | Mamba-2 |
| MHA | 低 | 最优 | Transformer |

## 参考

- [[mamba-2|Mamba-2]]
- [[structured-state-space-duality|SSD]]
- [[mamba-ssm|Mamba]]
- [[dao-transformers-are-ssms-2024|论文]]