20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/papers/peng-rwkv7.md
+++ b/papers/peng-rwkv7.md
@@ -0,0 +1,100 @@
+---
+title: "RWKV-7 Goose: Expressive Dynamic State Evolution"
+created: 2026-06-18
+updated: 2026-06-18
+type: paper
+tags: ["rwkv", "rnn", "linear-complexity", "delta-rule", "state-tracking"]
+sources: ["https://arxiv.org/abs/2503.14456"]
+---
+
+# RWKV-7 "Goose"
+
+## 核心定位
+
+RWKV-7（代号 "Goose"）是 RWKV 序列建模架构的第七代版本，核心创新在于将 Delta 规则从标量形式**广义化**为带向量值门控和上下文学习率的动态状态演化机制。它代表了 RNN 架构在表达能力上的一个重要里程碑：**第一个被证明超越 Transformer（TC^0）的并行化可训练 RNN**。
+
+## 核心创新
+
+### 广义 Delta 规则
+
+传统 Delta 规则（[[delta-rule|DeltaNet]]）通过梯度下降更新矩阵状态：
+```
+S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)
+```
+
+RWKV-7 的三个扩展：
+
+| 维度 | DeltaNet | RWKV-7 |
+|------|---------|--------|
+| 学习率 α | 标量 | **向量 a_t（逐通道）** |
+| 衰减 w | 固定/标量 | **动态 w_t + 附加项** |
+| Key 解耦 | k_t 同时用于移除和添加 | **分离 k_remove / k_add** |
+
+完整状态更新：
+```
+S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t
+```
+
+### 向量值门控（Vector-Valued Gating）
+
+门控信号从标量扩展为向量 → 模型可**逐通道**决策是否遗忘/更新。这赋予了 RWKV-7 类似 Mamba 的选择性但通过 Delta 规则的数学框架实现。
+
+### 上下文学习率（In-Context Learning Rate）
+
+a_t 是输入依赖的向量学习率，使模型能根据当前 token 内容决定"多快"更新状态——类似 Mamba 的选择性 Δ 但通过梯度下降视角理解。
+
+### 松弛值替换规则
+
+解耦移除 key 和添加 key：
+- `k_remove`：决定从状态中移除什么
+- `k_add`：决定向状态中添加什么
+
+这允许更灵活的信息管理——移除和添加是独立操作。
+
+## 理论贡献：超越 TC^0
+
+RWKV-7 的理论结果具有里程碑意义：
+
+| 架构 | 复杂度类 | 正则语言 | 状态追踪 |
+|------|---------|---------|---------|
+| Transformer (standard) | TC^0 | ✗ | ✗ |
+| RWKV-4/5/6 | TC^0 | ✗ | ✗ |
+| **RWKV-7** | **NC^1** | **✓ 全部** | **✓ S5** |
+
+在 TC^0 ≠ NC^1 猜想下，RWKV-7 是首个严格超越 Transformer 表达力的并行化可训练 RNN 架构。
+
+## 实验结果
+
+- **2.9B 多语言 SoTA**：尽管训练 token 少于同类，多语言基准上达到新 3B SoTA
+- **RWKV World v3**：3.1T token 多语言开放数据集
+- **模型升级**：从 RWKV-5/6 checkpoint 升级而非从头训练
+- **长上下文**：O(1) 推理内存，不受序列长度影响
+- **开源**：Apache 2.0，权重 + 代码 + 数据集组件全部公开
+
+## 概念网络
+
+```
+delta-rule → generalized-delta-rule → dynamic-state-evolution
+  → vector-valued-gating + in-context-learning-rate
+  → regular-language-recognition
+
+rwkv → token-shift → wkv-time-mixing
+```
+
+## 相关已有概念
+
+- [[state-space-models]] — RWKV-7 作为增强 SSM/RNN 的代表
+- [[enhanced-state-space-models]] — 已有 RWKV-7 小节
+- [[step-recurrence]] — RWKV-7 属于步级循环
+- [[state-tracking]] — RWKV-7 理论上完整体支持
+
+## 代码与模型
+
+- 代码：https://github.com/RWKV/RWKV-LM
+- 模型：https://huggingface.co/RWKV
+- 许可证：Apache 2.0
+
+## 参考
+
+- [arXiv:2503.14456](https://arxiv.org/abs/2503.14456)
+- [原始存档](raw/papers/peng-rwkv7-goose-2025.md)