20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/raw/papers/peng-rwkv7-goose-2025.md
+++ b/raw/papers/peng-rwkv7-goose-2025.md
@@ -0,0 +1,90 @@
+---
+title: "RWKV-7 \"Goose\" with Expressive Dynamic State Evolution"
+authors: ["Bo Peng", "Ruichong Zhang", "Daniel Goldstein", "Eric Alcaide", "et al."]
+date: 2025-03-18
+arxiv_id: "2503.14456v2"
+categories: ["cs.CL", "cs.AI", "cs.LG"]
+affiliations: ["RWKV Project (Linux Foundation AI & Data)", "EleutherAI", "Tsinghua University", "et al."]
+paper_type: "preprint"
+code: "https://github.com/RWKV/RWKV-LM"
+models: "https://huggingface.co/RWKV"
+---
+
+# RWKV-7 "Goose" with Expressive Dynamic State Evolution
+
+## 摘要
+
+RWKV-7 "Goose" 是一种新序列建模架构，具有常数内存使用和常数每 token 推理时间。尽管训练 token 数远少于同类顶级模型，其 2.9B 参数语言模型在多语言任务上达到新的 3B SoTA，在英语下游性能上匹敌当前 3B SoTA。RWKV-7 核心创新：(1) 广义化的 delta 规则——带**向量值门控**和**上下文学习率**；(2) 松弛值替换规则（解耦移除和添加的 key）。理论上，RWKV-7 可执行状态追踪并识别**所有正则语言**，超越 Transformer 的 TC^0 限制。附带发布了 3.1T token 多语言语料和四个预训练模型（0.19B-2.9B），全部 Apache 2.0。
+
+## 核心贡献
+
+1. **广义 Delta 规则**：将 DeltaNet 的标量 delta 规则扩展到向量值门控和上下文学习率
+2. **松弛值替换规则**：解耦移除 key（k_remove）和添加 key（k_add），允许更灵活的状态更新
+3. **超越 TC^0 的表达力**：证明 RWKV-7 可识别所有正则语言（NC^1），单层即可解决 S5 状态追踪
+4. **模型升级方法**：从 RWKV-5/6 checkpoint 升级训练而非从头 pretrain，节省计算
+5. **RWKV World v3 数据集**：3.1T token 多语言开放语料
+
+## 方法框架
+
+### 从 DeltaNet 到广义 Delta Rule
+
+传统 Delta 规则（DeltaNet）的形式：
+```
+S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)
+```
+
+RWKV-7 的广义 Delta 规则引入三个创新：
+
+**1. 向量值门控（Vector-valued Gating）**：
+```
+S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t
+```
+其中 w_t 是动态衰减（flexible decay），a_t 是向量值上下文学习率，κ̂_t 是归一化的 key。
+
+**2. 向量值上下文学习率（in-context learning rate）**：
+a_t 从标量升级为向量（d 维），允许模型**逐通道**选择性替换状态数据。
+
+**3. 广义特征值（Generalized Eigenvalue）**：
+进化矩阵可拥有 [0, 1] 区间外的特征值 → 表达能力超越标准 SSM。
+
+### 与各架构对比
+
+| 架构 | 大状态 | 灵活衰减 | 动态依赖 | 广义特征值 |
+|------|--------|---------|---------|----------|
+| RWKV-4 | ✗ | ✗ | ✗ | ✗ |
+| Mamba | ✗ | ✓ | ✓ | ✗ |
+| RWKV-6 / GLA | ✗ | ✓ | ✓ | ✗ |
+| Gated DeltaNet | ✓ | ✗ | ✓ | ✓ |
+| **RWKV-7** | ✓ | ✓ | ✓ | ✓ |
+
+### 理论突破
+
+RWKV-7 是**首个被证明超越 TC^0** 的并行化可训练 RNN 架构（在 TC^0 ≠ NC^1 猜想下）：
+
+- 单层可解决 S5 状态追踪（NC^1 问题）
+- 常数层可识别任意正则语言
+- Transformer（standard）被限制在 TC^0
+
+## 实验结果
+
+- **2.9B 多语言**：3B 规模多语言 SoTA，英语匹敌当前 3B SoTA
+- **训练效率**：训练 token 远少于同等规模模型
+- **长上下文**：常数内存，推理成本不随序列长度增长
+- **关联回忆（Associative Recall）**：在合成任务上显著优于 RWKV-6
+
+## 关键概念
+
+- [[delta-rule]] → [[generalized-delta-rule]] — Delta 规则的演进路径
+- [[vector-valued-gating]] — RWKV-7 的向量值门控机制
+- [[in-context-learning-rate]] — 逐通道上下文学习率
+- [[dynamic-state-evolution]] — 动态状态演化机制
+- [[token-shift]] — RWKV 家族的时间混合技巧
+- [[regular-language-recognition]] — 理论突破：识别所有正则语言
+- [[wkv-time-mixing]] — RWKV-7 的 WKV 时间混合机制
+
+## 参考
+
+- 代码：https://github.com/RWKV/RWKV-LM
+- 模型：https://huggingface.co/RWKV
+- DeltaNet (Schlag et al., 2021)
+- RWKV-6 / Finch (Peng et al., 2024)