SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.9 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

增强状态空间模型 (Enhanced State-Space Models)

2026-06-18

2026-06-18

concept

ssm

state-tracking

expressivity

architecture

mozer-topological-trouble-transformers-2026

增强状态空间模型 (Enhanced State-Space Models)

增强状态空间模型是超越标准 Transformer 表达能力的 SSM 变体，是 Mozer et al. (2026) 提出的首要研究方向。

为何需要增强

标准线性 SSM 的表达能力不超过标准 Transformer（Merrill et al., 2025）。增强 SSM 通过引入非线性/结构化更新突破此限制。

关键架构

DeltaNet 及其扩展

DeltaNet（Schlag et al., 2021）：Delta 规则驱动的快速权重更新
负特征值扩展（Grazzi et al., 2025）：将特征值范围扩展到负数 → 表达能力超越标准 Transformer，同时保持并行训练能力
门控 DeltaNet（Yang et al., 2025a）：与标准 Transformer 块混合时，理论和实践均更强大（Merrill et al., 2026）

RWKV-7

Peng et al., 2025：广义 Delta 规则 + 向量值门控，首个被证明超越 TC^0（NC^1）的并行化可训练 RNN
可识别所有正则语言，单层可解决 S5 状态追踪
多语言 2.9B SoTA
论文：peng-rwkv7

PaTH Attention

Yang et al., 2025b：路径注意力机制，具备增强的状态追踪能力

门控线性注意力

Yang et al., 2024b：在线性注意力中加入门控机制
Gated Linear Attention + Transformer 混合（Merrill et al., 2026）

核心优势

并行训练 + 超越 Transformer 的表达力（DeltaNet 负特征值扩展）
竞争性规模性能（RWKV-7 等）
灵活混合：与标准 Transformer 块堆叠

参考