RWKV-7 Review

📌 基本信息

论文标题：RWKV-7 "Goose" with Expressive Dynamic State Evolution
作者：Bo Peng, Ruichong Zhang, Daniel Goldstein, ... (18 人，RWKV Project + EleutherAI + 多所大学)
arXiv ID：2503.14456v2
发表：2025-03（preprint）
代码：https://github.com/RWKV/RWKV-LM（Apache 2.0）
模型：https://huggingface.co/RWKV
Wiki 添加时间：2026-06-18

🎯 核心概念

generalized-delta-rule — 将 DeltaNet 的标量规则扩展到向量值门控 + 上下文学习率 + 键解耦
vector-valued-gating — 逐通道动态衰减，每个状态维度独立速率
in-context-learning-rate — 从标量 α → 向量 a_t，Delta 规则视角的选择性
regular-language-recognition — 理论里程碑：首个超越 TC^0 的并行化可训练 RNN

🔗 概念网络

delta-rule → generalized-delta-rule
  → vector-valued-gating + in-context-learning-rate
    → dynamic-state-evolution
      → regular-language-recognition (NC^1)

rwkv → token-shift → wkv-time-mixing
  → peng-rwkv7 (论文)

与已有概念连接：

enhanced-state-space-models（更新 RWKV-7 小节）
state-space-models、state-tracking、step-recurrence（已有引用）
与 Mamba（selective-state-space）形成门控机制的跨范式对比

📚 Wiki 集成

新增页面：10 个（1 论文 + 8 概念 + 1 Review）
更新页面：1 个（enhanced-state-space-models，RWKV-7 小节扩充）
概念分布：
- Delta 规则线：delta-rule → generalized-delta-rule → in-context-learning-rate
- 门控/状态线：vector-valued-gating → dynamic-state-evolution
- 架构线：rwkv → token-shift → wkv-time-mixing
- 理论线：regular-language-recognition

💡 关键洞察

"Delta 规则是 RNN 的正确数学语言"

RWKV-7 的广义 Delta 规则将三个看似独立的序列建模概念统一在梯度下降的框架下：门控 = 逐通道衰减（w_t）、选择性 = 逐通道学习率（a_t）、值替换 = 预测误差修正。这比 Mamba 的 SSM 框架提供了一个更直观的理解视角：RNN 状态更新本质上是在做在线优化。
理论突破来自对规则的松弛，而非对规模的信仰

RWKV-7 证明超越 Transformer（TC^0→NC^1）的关键不是更多参数或更深的网络，而是三个具体的、可分析的数学松弛：标量→向量、固定→动态、共用键→分离键。这是"架构工程应当由理论指导"的最佳案例。
开源生态的闭环

RWKV-7 不仅发布了模型权重和代码，还发布了完整的 3.1T token 训练数据组件清单和从旧版升级的训练方法。这种"全栈开源"生态使 RWKV 成为 Transformer 替代方案中最具社区可行性的路线之一。

3.0 KiB Raw Blame History Unescape Escape

RWKV-7 Review

3.0 KiB

Raw Blame History