66 lines
3.0 KiB
Markdown
66 lines
3.0 KiB
Markdown
---
|
||
title: "Review: RWKV-7 Goose — Expressive Dynamic State Evolution"
|
||
created: 2026-06-18
|
||
type: review
|
||
tags: ["rwkv", "rnn", "delta-rule", "state-tracking", "expressiveness"]
|
||
---
|
||
|
||
# RWKV-7 Review
|
||
|
||
📌 基本信息
|
||
- **论文标题**:RWKV-7 "Goose" with Expressive Dynamic State Evolution
|
||
- **作者**:Bo Peng, Ruichong Zhang, Daniel Goldstein, ... (18 人,RWKV Project + EleutherAI + 多所大学)
|
||
- **arXiv ID**:2503.14456v2
|
||
- **发表**:2025-03(preprint)
|
||
- **代码**:https://github.com/RWKV/RWKV-LM(Apache 2.0)
|
||
- **模型**:https://huggingface.co/RWKV
|
||
- **Wiki 添加时间**:2026-06-18
|
||
|
||
🎯 核心概念
|
||
|
||
1. [[generalized-delta-rule]] — 将 DeltaNet 的标量规则扩展到向量值门控 + 上下文学习率 + 键解耦
|
||
2. [[vector-valued-gating]] — 逐通道动态衰减,每个状态维度独立速率
|
||
3. [[in-context-learning-rate]] — 从标量 α → 向量 a_t,Delta 规则视角的选择性
|
||
4. [[regular-language-recognition]] — 理论里程碑:首个超越 TC^0 的并行化可训练 RNN
|
||
|
||
🔗 概念网络
|
||
|
||
```
|
||
delta-rule → generalized-delta-rule
|
||
→ vector-valued-gating + in-context-learning-rate
|
||
→ dynamic-state-evolution
|
||
→ regular-language-recognition (NC^1)
|
||
|
||
rwkv → token-shift → wkv-time-mixing
|
||
→ peng-rwkv7 (论文)
|
||
```
|
||
|
||
**与已有概念连接**:
|
||
- [[enhanced-state-space-models]](更新 RWKV-7 小节)
|
||
- [[state-space-models]]、[[state-tracking]]、[[step-recurrence]](已有引用)
|
||
- 与 Mamba([[selective-state-space]])形成门控机制的跨范式对比
|
||
|
||
📚 Wiki 集成
|
||
|
||
- **新增页面**:10 个(1 论文 + 8 概念 + 1 Review)
|
||
- **更新页面**:1 个(`enhanced-state-space-models`,RWKV-7 小节扩充)
|
||
- **概念分布**:
|
||
- Delta 规则线:[[delta-rule]] → [[generalized-delta-rule]] → [[in-context-learning-rate]]
|
||
- 门控/状态线:[[vector-valued-gating]] → [[dynamic-state-evolution]]
|
||
- 架构线:[[rwkv]] → [[token-shift]] → [[wkv-time-mixing]]
|
||
- 理论线:[[regular-language-recognition]]
|
||
|
||
💡 关键洞察
|
||
|
||
1. **"Delta 规则是 RNN 的正确数学语言"**
|
||
|
||
RWKV-7 的广义 Delta 规则将三个看似独立的序列建模概念统一在梯度下降的框架下:门控 = 逐通道衰减(w_t)、选择性 = 逐通道学习率(a_t)、值替换 = 预测误差修正。这比 Mamba 的 SSM 框架提供了一个更直观的理解视角:RNN 状态更新本质上是在做在线优化。
|
||
|
||
2. **理论突破来自对规则的松弛,而非对规模的信仰**
|
||
|
||
RWKV-7 证明超越 Transformer(TC^0→NC^1)的关键不是更多参数或更深的网络,而是三个具体的、可分析的数学松弛:标量→向量、固定→动态、共用键→分离键。这是"架构工程应当由理论指导"的最佳案例。
|
||
|
||
3. **开源生态的闭环**
|
||
|
||
RWKV-7 不仅发布了模型权重和代码,还发布了完整的 3.1T token 训练数据组件清单和从旧版升级的训练方法。这种"全栈开源"生态使 RWKV 成为 Transformer 替代方案中最具社区可行性的路线之一。
|