Files
myWiki/concepts/enhanced-state-space-models.md

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
增强状态空间模型 (Enhanced State-Space Models) 2026-06-18 2026-06-18 concept
ssm
state-tracking
expressivity
architecture
mozer-topological-trouble-transformers-2026

增强状态空间模型 (Enhanced State-Space Models)

增强状态空间模型是超越标准 Transformer 表达能力的 SSM 变体,是 Mozer et al. (2026) 提出的首要研究方向。

为何需要增强

标准线性 SSM 的表达能力不超过标准 TransformerMerrill et al., 2025。增强 SSM 通过引入非线性/结构化更新突破此限制。

关键架构

DeltaNet 及其扩展

  • DeltaNetSchlag et al., 2021Delta 规则驱动的快速权重更新
  • 负特征值扩展Grazzi et al., 2025将特征值范围扩展到负数 → 表达能力超越标准 Transformer同时保持并行训练能力
  • 门控 DeltaNetYang et al., 2025a与标准 Transformer 块混合时理论和实践均更强大Merrill et al., 2026

RWKV-7

  • Peng et al., 2025:广义 Delta 规则 + 向量值门控,首个被证明超越 TC^0NC^1的并行化可训练 RNN
  • 可识别所有正则语言,单层可解决 S5 状态追踪
  • 多语言 2.9B SoTA
  • 论文:peng-rwkv7

PaTH Attention

  • Yang et al., 2025b:路径注意力机制,具备增强的状态追踪能力

门控线性注意力

  • Yang et al., 2024b:在线性注意力中加入门控机制
  • Gated Linear Attention + Transformer 混合Merrill et al., 2026

核心优势

  • 并行训练 + 超越 Transformer 的表达力DeltaNet 负特征值扩展)
  • 竞争性规模性能RWKV-7 等)
  • 灵活混合:与标准 Transformer 块堆叠

参考