20260625:很多新内容
This commit is contained in:
50
concepts/enhanced-state-space-models.md
Normal file
50
concepts/enhanced-state-space-models.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "增强状态空间模型 (Enhanced State-Space Models)"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: concept
|
||||
tags: [ssm, state-tracking, expressivity, architecture]
|
||||
sources:
|
||||
- mozer-topological-trouble-transformers-2026
|
||||
---
|
||||
|
||||
# 增强状态空间模型 (Enhanced State-Space Models)
|
||||
|
||||
增强状态空间模型是超越标准 Transformer 表达能力的 SSM 变体,是 Mozer et al. (2026) 提出的首要研究方向。
|
||||
|
||||
## 为何需要增强
|
||||
|
||||
标准线性 SSM 的表达能力**不超过**标准 Transformer(Merrill et al., 2025)。增强 SSM 通过引入非线性/结构化更新突破此限制。
|
||||
|
||||
## 关键架构
|
||||
|
||||
### DeltaNet 及其扩展
|
||||
- **DeltaNet**(Schlag et al., 2021):Delta 规则驱动的快速权重更新
|
||||
- **负特征值扩展**(Grazzi et al., 2025):将特征值范围扩展到负数 → 表达能力超越标准 Transformer,同时保持并行训练能力
|
||||
- **门控 DeltaNet**(Yang et al., 2025a):与标准 Transformer 块混合时,理论和实践均更强大(Merrill et al., 2026)
|
||||
|
||||
### RWKV-7
|
||||
- **Peng et al., 2025**:广义 Delta 规则 + 向量值门控,首个被证明超越 TC^0(NC^1)的并行化可训练 RNN
|
||||
- 可识别所有正则语言,单层可解决 S5 状态追踪
|
||||
- 多语言 2.9B SoTA
|
||||
- 论文:[[peng-rwkv7|RWKV-7 "Goose"]]
|
||||
|
||||
### PaTH Attention
|
||||
- **Yang et al., 2025b**:路径注意力机制,具备增强的状态追踪能力
|
||||
|
||||
### 门控线性注意力
|
||||
- **Yang et al., 2024b**:在线性注意力中加入门控机制
|
||||
- **Gated Linear Attention + Transformer 混合**(Merrill et al., 2026)
|
||||
|
||||
## 核心优势
|
||||
|
||||
- **并行训练** + **超越 Transformer 的表达力**(DeltaNet 负特征值扩展)
|
||||
- **竞争性规模性能**(RWKV-7 等)
|
||||
- **灵活混合**:与标准 Transformer 块堆叠
|
||||
|
||||
## 参考
|
||||
|
||||
- [[state-space-models|状态空间模型]]
|
||||
- [[step-recurrence|步级循环]]
|
||||
- [[state-tracking|状态追踪]]
|
||||
- [[mozer-topological-trouble-transformers-2026]]
|
||||
Reference in New Issue
Block a user