1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 步级循环 (Step Recurrence) | 2026-06-18 | 2026-06-18 | concept |
|
|
步级循环 (Step Recurrence)
步级循环是recurrence-taxonomy中沿输入步轴的循环模式:层内激活从前一步流向下一步(Mozer et al., 2026)。
对应 Mozer et al. 图 7
激活在同一层内从 t-1 步到 t 步横向传播,不同于深度循环的垂直传播。
代表架构
| 架构 | 特点 |
|---|---|
| 线性注意力(Katharopoulos et al., 2020) | 核化注意力,线性复杂度 |
| Mamba(Gu & Dao, 2024) | 选择性状态空间模型,输入依赖门控 |
| RWKV-7(Peng et al., 2025) | 线性注意力 + Delta 规则 |
| DeltaNet(Schlag et al., 2021) | Delta 规则驱动的快速权重更新 |
| PaTH Attention(Yang et al., 2025b) | 路径注意力 |
| Canon Layers(Allen-Zhu, 2025) | 规范形式的层结构 |
| Test-Time Regression(Sun et al., 2025) | 推理时回归更新 |
表达能力边界
Merrill et al. (2025) 证明:具有线性更新的 SSM 表达能力不超过标准 Transformer。但扩展到负特征值(Grazzi et al., 2025)后,DeltaNet 超越了标准 Transformer 的表达力。