Files
myWiki/concepts/subquadratic-transformer-alternatives.md
2026-04-20 11:42:41 +08:00

1.7 KiB

title, created, updated, type, tags, sources
title created updated type tags sources
次二次 Transformer 替代方案 2026-04-19 2026-04-19 concept
architecture
deep-learning
llm
raw/papers/behrouz-memory-caching-rnn-2026.md

次二次 Transformer 替代方案 (Subquadratic Transformer Alternatives)

问题定义

Transformer 的核心瓶颈在于自注意力机制的 O(L^2) 计算和内存复杂度,限制了其在长序列上的应用。近年来涌现了多种次二次复杂度的替代架构。

主要方向

RNN 类

  • 传统 RNN/LSTM/GRUO(L) 复杂度,但固定记忆限制回忆能力
  • Memory Caching (MC) — 通过缓存检查点扩展 RNN 记忆 memory-caching-rnn
  • Mamba/State Space Models — 结构化状态空间,O(L) 复杂度
  • RWKV — 结合 Transformer 和 RNN 优势

线性注意力

  • Linear Transformers — 通过核方法将注意力线性化
  • Performer — 使用随机特征近似的线性注意力

其他

  • Hyena — 基于长卷积的序列模型
  • Griffin — 门控卷积与线性注意力的混合

核心权衡

架构类型 复杂度 记忆能力 并行训练
Transformer O(L^2) ★★★★★
MC-RNN $O(L)$~O(L^2) ★★★★
SSM/Mamba O(L) ★★★☆ 部分
Linear Attn O(L) ★★★

开放问题

  • 是否存在一种架构能同时实现 O(L) 复杂度和 Transformer 级别的回忆能力?
  • Memory Caching 是否可推广到其他次二次架构?

相关概念