20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/reviews/rwkv7-review-20260618.md
+++ b/reviews/rwkv7-review-20260618.md
@@ -0,0 +1,65 @@
+---
+title: "Review: RWKV-7 Goose — Expressive Dynamic State Evolution"
+created: 2026-06-18
+type: review
+tags: ["rwkv", "rnn", "delta-rule", "state-tracking", "expressiveness"]
+---
+
+# RWKV-7 Review
+
+📌 基本信息
+- **论文标题**：RWKV-7 "Goose" with Expressive Dynamic State Evolution
+- **作者**：Bo Peng, Ruichong Zhang, Daniel Goldstein, ... (18 人，RWKV Project + EleutherAI + 多所大学)
+- **arXiv ID**：2503.14456v2
+- **发表**：2025-03（preprint）
+- **代码**：https://github.com/RWKV/RWKV-LM（Apache 2.0）
+- **模型**：https://huggingface.co/RWKV
+- **Wiki 添加时间**：2026-06-18
+
+🎯 核心概念
+
+1. [[generalized-delta-rule]] — 将 DeltaNet 的标量规则扩展到向量值门控 + 上下文学习率 + 键解耦
+2. [[vector-valued-gating]] — 逐通道动态衰减，每个状态维度独立速率
+3. [[in-context-learning-rate]] — 从标量 α → 向量 a_t，Delta 规则视角的选择性
+4. [[regular-language-recognition]] — 理论里程碑：首个超越 TC^0 的并行化可训练 RNN
+
+🔗 概念网络
+
+```
+delta-rule → generalized-delta-rule
+  → vector-valued-gating + in-context-learning-rate
+    → dynamic-state-evolution
+      → regular-language-recognition (NC^1)
+
+rwkv → token-shift → wkv-time-mixing
+  → peng-rwkv7 (论文)
+```
+
+**与已有概念连接**：
+- [[enhanced-state-space-models]]（更新 RWKV-7 小节）
+- [[state-space-models]]、[[state-tracking]]、[[step-recurrence]]（已有引用）
+- 与 Mamba（[[selective-state-space]]）形成门控机制的跨范式对比
+
+📚 Wiki 集成
+
+- **新增页面**：10 个（1 论文 + 8 概念 + 1 Review）
+- **更新页面**：1 个（`enhanced-state-space-models`，RWKV-7 小节扩充）
+- **概念分布**：
+  - Delta 规则线：[[delta-rule]] → [[generalized-delta-rule]] → [[in-context-learning-rate]]
+  - 门控/状态线：[[vector-valued-gating]] → [[dynamic-state-evolution]]
+  - 架构线：[[rwkv]] → [[token-shift]] → [[wkv-time-mixing]]
+  - 理论线：[[regular-language-recognition]]
+
+💡 关键洞察
+
+1. **"Delta 规则是 RNN 的正确数学语言"**
+
+   RWKV-7 的广义 Delta 规则将三个看似独立的序列建模概念统一在梯度下降的框架下：门控 = 逐通道衰减（w_t）、选择性 = 逐通道学习率（a_t）、值替换 = 预测误差修正。这比 Mamba 的 SSM 框架提供了一个更直观的理解视角：RNN 状态更新本质上是在做在线优化。
+
+2. **理论突破来自对规则的松弛，而非对规模的信仰**
+
+   RWKV-7 证明超越 Transformer（TC^0→NC^1）的关键不是更多参数或更深的网络，而是三个具体的、可分析的数学松弛：标量→向量、固定→动态、共用键→分离键。这是"架构工程应当由理论指导"的最佳案例。
+
+3. **开源生态的闭环**
+
+   RWKV-7 不仅发布了模型权重和代码，还发布了完整的 3.1T token 训练数据组件清单和从旧版升级的训练方法。这种"全栈开源"生态使 RWKV 成为 Transformer 替代方案中最具社区可行性的路线之一。