20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/enhanced-state-space-models.md
+++ b/concepts/enhanced-state-space-models.md
@@ -0,0 +1,50 @@
+---
+title: "增强状态空间模型 (Enhanced State-Space Models)"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: [ssm, state-tracking, expressivity, architecture]
+sources:
+  - mozer-topological-trouble-transformers-2026
+---
+
+# 增强状态空间模型 (Enhanced State-Space Models)
+
+增强状态空间模型是超越标准 Transformer 表达能力的 SSM 变体，是 Mozer et al. (2026) 提出的首要研究方向。
+
+## 为何需要增强
+
+标准线性 SSM 的表达能力**不超过**标准 Transformer（Merrill et al., 2025）。增强 SSM 通过引入非线性/结构化更新突破此限制。
+
+## 关键架构
+
+### DeltaNet 及其扩展
+- **DeltaNet**（Schlag et al., 2021）：Delta 规则驱动的快速权重更新
+- **负特征值扩展**（Grazzi et al., 2025）：将特征值范围扩展到负数 → 表达能力超越标准 Transformer，同时保持并行训练能力
+- **门控 DeltaNet**（Yang et al., 2025a）：与标准 Transformer 块混合时，理论和实践均更强大（Merrill et al., 2026）
+
+### RWKV-7
+- **Peng et al., 2025**：广义 Delta 规则 + 向量值门控，首个被证明超越 TC^0（NC^1）的并行化可训练 RNN
+- 可识别所有正则语言，单层可解决 S5 状态追踪
+- 多语言 2.9B SoTA
+- 论文：[[peng-rwkv7|RWKV-7 "Goose"]]
+
+### PaTH Attention
+- **Yang et al., 2025b**：路径注意力机制，具备增强的状态追踪能力
+
+### 门控线性注意力
+- **Yang et al., 2024b**：在线性注意力中加入门控机制
+- **Gated Linear Attention + Transformer 混合**（Merrill et al., 2026）
+
+## 核心优势
+
+- **并行训练** + **超越 Transformer 的表达力**（DeltaNet 负特征值扩展）
+- **竞争性规模性能**（RWKV-7 等）
+- **灵活混合**：与标准 Transformer 块堆叠
+
+## 参考
+
+- [[state-space-models|状态空间模型]]
+- [[step-recurrence|步级循环]]
+- [[state-tracking|状态追踪]]
+- [[mozer-topological-trouble-transformers-2026]]