Files
myWiki/concepts/enhanced-state-space-models.md

51 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "增强状态空间模型 (Enhanced State-Space Models)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [ssm, state-tracking, expressivity, architecture]
sources:
- mozer-topological-trouble-transformers-2026
---
# 增强状态空间模型 (Enhanced State-Space Models)
增强状态空间模型是超越标准 Transformer 表达能力的 SSM 变体,是 Mozer et al. (2026) 提出的首要研究方向。
## 为何需要增强
标准线性 SSM 的表达能力**不超过**标准 TransformerMerrill et al., 2025。增强 SSM 通过引入非线性/结构化更新突破此限制。
## 关键架构
### DeltaNet 及其扩展
- **DeltaNet**Schlag et al., 2021Delta 规则驱动的快速权重更新
- **负特征值扩展**Grazzi et al., 2025将特征值范围扩展到负数 → 表达能力超越标准 Transformer同时保持并行训练能力
- **门控 DeltaNet**Yang et al., 2025a与标准 Transformer 块混合时理论和实践均更强大Merrill et al., 2026
### RWKV-7
- **Peng et al., 2025**:广义 Delta 规则 + 向量值门控,首个被证明超越 TC^0NC^1的并行化可训练 RNN
- 可识别所有正则语言,单层可解决 S5 状态追踪
- 多语言 2.9B SoTA
- 论文:[[peng-rwkv7|RWKV-7 "Goose"]]
### PaTH Attention
- **Yang et al., 2025b**:路径注意力机制,具备增强的状态追踪能力
### 门控线性注意力
- **Yang et al., 2024b**:在线性注意力中加入门控机制
- **Gated Linear Attention + Transformer 混合**Merrill et al., 2026
## 核心优势
- **并行训练** + **超越 Transformer 的表达力**DeltaNet 负特征值扩展)
- **竞争性规模性能**RWKV-7 等)
- **灵活混合**:与标准 Transformer 块堆叠
## 参考
- [[state-space-models|状态空间模型]]
- [[step-recurrence|步级循环]]
- [[state-tracking|状态追踪]]
- [[mozer-topological-trouble-transformers-2026]]