Files
myWiki/reviews/rwkv7-review-20260618.md

3.0 KiB
Raw Blame History

title, created, type, tags
title created type tags
Review: RWKV-7 Goose — Expressive Dynamic State Evolution 2026-06-18 review
rwkv
rnn
delta-rule
state-tracking
expressiveness

RWKV-7 Review

📌 基本信息

  • 论文标题RWKV-7 "Goose" with Expressive Dynamic State Evolution
  • 作者Bo Peng, Ruichong Zhang, Daniel Goldstein, ... (18 人RWKV Project + EleutherAI + 多所大学)
  • arXiv ID2503.14456v2
  • 发表2025-03preprint
  • 代码https://github.com/RWKV/RWKV-LMApache 2.0
  • 模型https://huggingface.co/RWKV
  • Wiki 添加时间2026-06-18

🎯 核心概念

  1. generalized-delta-rule — 将 DeltaNet 的标量规则扩展到向量值门控 + 上下文学习率 + 键解耦
  2. vector-valued-gating — 逐通道动态衰减,每个状态维度独立速率
  3. in-context-learning-rate — 从标量 α → 向量 a_tDelta 规则视角的选择性
  4. regular-language-recognition — 理论里程碑:首个超越 TC^0 的并行化可训练 RNN

🔗 概念网络

delta-rule → generalized-delta-rule
  → vector-valued-gating + in-context-learning-rate
    → dynamic-state-evolution
      → regular-language-recognition (NC^1)

rwkv → token-shift → wkv-time-mixing
  → peng-rwkv7 (论文)

与已有概念连接

📚 Wiki 集成

💡 关键洞察

  1. "Delta 规则是 RNN 的正确数学语言"

    RWKV-7 的广义 Delta 规则将三个看似独立的序列建模概念统一在梯度下降的框架下:门控 = 逐通道衰减w_t、选择性 = 逐通道学习率a_t、值替换 = 预测误差修正。这比 Mamba 的 SSM 框架提供了一个更直观的理解视角RNN 状态更新本质上是在做在线优化。

  2. 理论突破来自对规则的松弛,而非对规模的信仰

    RWKV-7 证明超越 TransformerTC^0→NC^1的关键不是更多参数或更深的网络而是三个具体的、可分析的数学松弛标量→向量、固定→动态、共用键→分离键。这是"架构工程应当由理论指导"的最佳案例。

  3. 开源生态的闭环

    RWKV-7 不仅发布了模型权重和代码,还发布了完整的 3.1T token 训练数据组件清单和从旧版升级的训练方法。这种"全栈开源"生态使 RWKV 成为 Transformer 替代方案中最具社区可行性的路线之一。