1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 增强状态空间模型 (Enhanced State-Space Models) | 2026-06-18 | 2026-06-18 | concept |
|
|
增强状态空间模型 (Enhanced State-Space Models)
增强状态空间模型是超越标准 Transformer 表达能力的 SSM 变体,是 Mozer et al. (2026) 提出的首要研究方向。
为何需要增强
标准线性 SSM 的表达能力不超过标准 Transformer(Merrill et al., 2025)。增强 SSM 通过引入非线性/结构化更新突破此限制。
关键架构
DeltaNet 及其扩展
- DeltaNet(Schlag et al., 2021):Delta 规则驱动的快速权重更新
- 负特征值扩展(Grazzi et al., 2025):将特征值范围扩展到负数 → 表达能力超越标准 Transformer,同时保持并行训练能力
- 门控 DeltaNet(Yang et al., 2025a):与标准 Transformer 块混合时,理论和实践均更强大(Merrill et al., 2026)
RWKV-7
- Peng et al., 2025:广义 Delta 规则 + 向量值门控,首个被证明超越 TC^0(NC^1)的并行化可训练 RNN
- 可识别所有正则语言,单层可解决 S5 状态追踪
- 多语言 2.9B SoTA
- 论文:peng-rwkv7
PaTH Attention
- Yang et al., 2025b:路径注意力机制,具备增强的状态追踪能力
门控线性注意力
- Yang et al., 2024b:在线性注意力中加入门控机制
- Gated Linear Attention + Transformer 混合(Merrill et al., 2026)
核心优势
- 并行训练 + 超越 Transformer 的表达力(DeltaNet 负特征值扩展)
- 竞争性规模性能(RWKV-7 等)
- 灵活混合:与标准 Transformer 块堆叠