SidneyZhang/myWiki

Files

Sidney Zhang dd8345a6ea

20260420:first commit

2026-04-20 11:42:41 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

次二次 Transformer 替代方案

2026-04-19

2026-04-19

concept

architecture

deep-learning

llm

raw/papers/behrouz-memory-caching-rnn-2026.md

次二次 Transformer 替代方案 (Subquadratic Transformer Alternatives)

问题定义

Transformer 的核心瓶颈在于自注意力机制的 O(L^2) 计算和内存复杂度，限制了其在长序列上的应用。近年来涌现了多种次二次复杂度的替代架构。

主要方向

RNN 类

传统 RNN/LSTM/GRU — O(L) 复杂度，但固定记忆限制回忆能力
Memory Caching (MC) — 通过缓存检查点扩展 RNN 记忆 memory-caching-rnn
Mamba/State Space Models — 结构化状态空间，O(L) 复杂度
RWKV — 结合 Transformer 和 RNN 优势

线性注意力

Linear Transformers — 通过核方法将注意力线性化
Performer — 使用随机特征近似的线性注意力

其他

Hyena — 基于长卷积的序列模型
Griffin — 门控卷积与线性注意力的混合

核心权衡

架构类型	复杂度	记忆能力	并行训练
Transformer	`O(L^2)`	★★★★★	✓
MC-RNN	$O(L)$~`O(L^2)`	★★★★	✗
SSM/Mamba	`O(L)`	★★★☆	部分
Linear Attn	`O(L)`	★★★	✓

开放问题

是否存在一种架构能同时实现 O(L) 复杂度和 Transformer 级别的回忆能力？
Memory Caching 是否可推广到其他次二次架构？

相关概念

memory-caching-rnn — Memory Caching 技术
behrouz-memory-caching-rnn — MC 原始论文