Files
myWiki/raw/papers/peng-rwkv7-goose-2025.md

91 lines
3.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "RWKV-7 \"Goose\" with Expressive Dynamic State Evolution"
authors: ["Bo Peng", "Ruichong Zhang", "Daniel Goldstein", "Eric Alcaide", "et al."]
date: 2025-03-18
arxiv_id: "2503.14456v2"
categories: ["cs.CL", "cs.AI", "cs.LG"]
affiliations: ["RWKV Project (Linux Foundation AI & Data)", "EleutherAI", "Tsinghua University", "et al."]
paper_type: "preprint"
code: "https://github.com/RWKV/RWKV-LM"
models: "https://huggingface.co/RWKV"
---
# RWKV-7 "Goose" with Expressive Dynamic State Evolution
## 摘要
RWKV-7 "Goose" 是一种新序列建模架构,具有常数内存使用和常数每 token 推理时间。尽管训练 token 数远少于同类顶级模型,其 2.9B 参数语言模型在多语言任务上达到新的 3B SoTA在英语下游性能上匹敌当前 3B SoTA。RWKV-7 核心创新:(1) 广义化的 delta 规则——带**向量值门控**和**上下文学习率**(2) 松弛值替换规则(解耦移除和添加的 key。理论上RWKV-7 可执行状态追踪并识别**所有正则语言**,超越 Transformer 的 TC^0 限制。附带发布了 3.1T token 多语言语料和四个预训练模型0.19B-2.9B),全部 Apache 2.0。
## 核心贡献
1. **广义 Delta 规则**:将 DeltaNet 的标量 delta 规则扩展到向量值门控和上下文学习率
2. **松弛值替换规则**:解耦移除 keyk_remove和添加 keyk_add允许更灵活的状态更新
3. **超越 TC^0 的表达力**:证明 RWKV-7 可识别所有正则语言NC^1单层即可解决 S5 状态追踪
4. **模型升级方法**:从 RWKV-5/6 checkpoint 升级训练而非从头 pretrain节省计算
5. **RWKV World v3 数据集**3.1T token 多语言开放语料
## 方法框架
### 从 DeltaNet 到广义 Delta Rule
传统 Delta 规则DeltaNet的形式
```
S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)
```
RWKV-7 的广义 Delta 规则引入三个创新:
**1. 向量值门控Vector-valued Gating**
```
S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t
```
其中 w_t 是动态衰减flexible decaya_t 是向量值上下文学习率κ̂_t 是归一化的 key。
**2. 向量值上下文学习率in-context learning rate**
a_t 从标量升级为向量d 维),允许模型**逐通道**选择性替换状态数据。
**3. 广义特征值Generalized Eigenvalue**
进化矩阵可拥有 [0, 1] 区间外的特征值 → 表达能力超越标准 SSM。
### 与各架构对比
| 架构 | 大状态 | 灵活衰减 | 动态依赖 | 广义特征值 |
|------|--------|---------|---------|----------|
| RWKV-4 | ✗ | ✗ | ✗ | ✗ |
| Mamba | ✗ | ✓ | ✓ | ✗ |
| RWKV-6 / GLA | ✗ | ✓ | ✓ | ✗ |
| Gated DeltaNet | ✓ | ✗ | ✓ | ✓ |
| **RWKV-7** | ✓ | ✓ | ✓ | ✓ |
### 理论突破
RWKV-7 是**首个被证明超越 TC^0** 的并行化可训练 RNN 架构(在 TC^0 ≠ NC^1 猜想下):
- 单层可解决 S5 状态追踪NC^1 问题)
- 常数层可识别任意正则语言
- Transformerstandard被限制在 TC^0
## 实验结果
- **2.9B 多语言**3B 规模多语言 SoTA英语匹敌当前 3B SoTA
- **训练效率**:训练 token 远少于同等规模模型
- **长上下文**:常数内存,推理成本不随序列长度增长
- **关联回忆Associative Recall**:在合成任务上显著优于 RWKV-6
## 关键概念
- [[delta-rule]] → [[generalized-delta-rule]] — Delta 规则的演进路径
- [[vector-valued-gating]] — RWKV-7 的向量值门控机制
- [[in-context-learning-rate]] — 逐通道上下文学习率
- [[dynamic-state-evolution]] — 动态状态演化机制
- [[token-shift]] — RWKV 家族的时间混合技巧
- [[regular-language-recognition]] — 理论突破:识别所有正则语言
- [[wkv-time-mixing]] — RWKV-7 的 WKV 时间混合机制
## 参考
- 代码https://github.com/RWKV/RWKV-LM
- 模型https://huggingface.co/RWKV
- DeltaNet (Schlag et al., 2021)
- RWKV-6 / Finch (Peng et al., 2024)