Files
myWiki/reviews/rwkv7-review-20260618.md

66 lines
3.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Review: RWKV-7 Goose — Expressive Dynamic State Evolution"
created: 2026-06-18
type: review
tags: ["rwkv", "rnn", "delta-rule", "state-tracking", "expressiveness"]
---
# RWKV-7 Review
📌 基本信息
- **论文标题**RWKV-7 "Goose" with Expressive Dynamic State Evolution
- **作者**Bo Peng, Ruichong Zhang, Daniel Goldstein, ... (18 人RWKV Project + EleutherAI + 多所大学)
- **arXiv ID**2503.14456v2
- **发表**2025-03preprint
- **代码**https://github.com/RWKV/RWKV-LMApache 2.0
- **模型**https://huggingface.co/RWKV
- **Wiki 添加时间**2026-06-18
🎯 核心概念
1. [[generalized-delta-rule]] — 将 DeltaNet 的标量规则扩展到向量值门控 + 上下文学习率 + 键解耦
2. [[vector-valued-gating]] — 逐通道动态衰减,每个状态维度独立速率
3. [[in-context-learning-rate]] — 从标量 α → 向量 a_tDelta 规则视角的选择性
4. [[regular-language-recognition]] — 理论里程碑:首个超越 TC^0 的并行化可训练 RNN
🔗 概念网络
```
delta-rule → generalized-delta-rule
→ vector-valued-gating + in-context-learning-rate
→ dynamic-state-evolution
→ regular-language-recognition (NC^1)
rwkv → token-shift → wkv-time-mixing
→ peng-rwkv7 (论文)
```
**与已有概念连接**
- [[enhanced-state-space-models]](更新 RWKV-7 小节)
- [[state-space-models]]、[[state-tracking]]、[[step-recurrence]](已有引用)
- 与 Mamba[[selective-state-space]])形成门控机制的跨范式对比
📚 Wiki 集成
- **新增页面**10 个1 论文 + 8 概念 + 1 Review
- **更新页面**1 个(`enhanced-state-space-models`RWKV-7 小节扩充)
- **概念分布**
- Delta 规则线:[[delta-rule]] → [[generalized-delta-rule]] → [[in-context-learning-rate]]
- 门控/状态线:[[vector-valued-gating]] → [[dynamic-state-evolution]]
- 架构线:[[rwkv]] → [[token-shift]] → [[wkv-time-mixing]]
- 理论线:[[regular-language-recognition]]
💡 关键洞察
1. **"Delta 规则是 RNN 的正确数学语言"**
RWKV-7 的广义 Delta 规则将三个看似独立的序列建模概念统一在梯度下降的框架下:门控 = 逐通道衰减w_t、选择性 = 逐通道学习率a_t、值替换 = 预测误差修正。这比 Mamba 的 SSM 框架提供了一个更直观的理解视角RNN 状态更新本质上是在做在线优化。
2. **理论突破来自对规则的松弛,而非对规模的信仰**
RWKV-7 证明超越 TransformerTC^0→NC^1的关键不是更多参数或更深的网络而是三个具体的、可分析的数学松弛标量→向量、固定→动态、共用键→分离键。这是"架构工程应当由理论指导"的最佳案例。
3. **开源生态的闭环**
RWKV-7 不仅发布了模型权重和代码,还发布了完整的 3.1T token 训练数据组件清单和从旧版升级的训练方法。这种"全栈开源"生态使 RWKV 成为 Transformer 替代方案中最具社区可行性的路线之一。