Files
myWiki/papers/peng-rwkv7.md

101 lines
3.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "RWKV-7 Goose: Expressive Dynamic State Evolution"
created: 2026-06-18
updated: 2026-06-18
type: paper
tags: ["rwkv", "rnn", "linear-complexity", "delta-rule", "state-tracking"]
sources: ["https://arxiv.org/abs/2503.14456"]
---
# RWKV-7 "Goose"
## 核心定位
RWKV-7代号 "Goose")是 RWKV 序列建模架构的第七代版本,核心创新在于将 Delta 规则从标量形式**广义化**为带向量值门控和上下文学习率的动态状态演化机制。它代表了 RNN 架构在表达能力上的一个重要里程碑:**第一个被证明超越 TransformerTC^0的并行化可训练 RNN**。
## 核心创新
### 广义 Delta 规则
传统 Delta 规则([[delta-rule|DeltaNet]])通过梯度下降更新矩阵状态:
```
S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)
```
RWKV-7 的三个扩展:
| 维度 | DeltaNet | RWKV-7 |
|------|---------|--------|
| 学习率 α | 标量 | **向量 a_t逐通道** |
| 衰减 w | 固定/标量 | **动态 w_t + 附加项** |
| Key 解耦 | k_t 同时用于移除和添加 | **分离 k_remove / k_add** |
完整状态更新:
```
S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t
```
### 向量值门控Vector-Valued Gating
门控信号从标量扩展为向量 → 模型可**逐通道**决策是否遗忘/更新。这赋予了 RWKV-7 类似 Mamba 的选择性但通过 Delta 规则的数学框架实现。
### 上下文学习率In-Context Learning Rate
a_t 是输入依赖的向量学习率,使模型能根据当前 token 内容决定"多快"更新状态——类似 Mamba 的选择性 Δ 但通过梯度下降视角理解。
### 松弛值替换规则
解耦移除 key 和添加 key
- `k_remove`:决定从状态中移除什么
- `k_add`:决定向状态中添加什么
这允许更灵活的信息管理——移除和添加是独立操作。
## 理论贡献:超越 TC^0
RWKV-7 的理论结果具有里程碑意义:
| 架构 | 复杂度类 | 正则语言 | 状态追踪 |
|------|---------|---------|---------|
| Transformer (standard) | TC^0 | ✗ | ✗ |
| RWKV-4/5/6 | TC^0 | ✗ | ✗ |
| **RWKV-7** | **NC^1** | **✓ 全部** | **✓ S5** |
在 TC^0 ≠ NC^1 猜想下RWKV-7 是首个严格超越 Transformer 表达力的并行化可训练 RNN 架构。
## 实验结果
- **2.9B 多语言 SoTA**:尽管训练 token 少于同类,多语言基准上达到新 3B SoTA
- **RWKV World v3**3.1T token 多语言开放数据集
- **模型升级**:从 RWKV-5/6 checkpoint 升级而非从头训练
- **长上下文**O(1) 推理内存,不受序列长度影响
- **开源**Apache 2.0,权重 + 代码 + 数据集组件全部公开
## 概念网络
```
delta-rule → generalized-delta-rule → dynamic-state-evolution
→ vector-valued-gating + in-context-learning-rate
→ regular-language-recognition
rwkv → token-shift → wkv-time-mixing
```
## 相关已有概念
- [[state-space-models]] — RWKV-7 作为增强 SSM/RNN 的代表
- [[enhanced-state-space-models]] — 已有 RWKV-7 小节
- [[step-recurrence]] — RWKV-7 属于步级循环
- [[state-tracking]] — RWKV-7 理论上完整体支持
## 代码与模型
- 代码https://github.com/RWKV/RWKV-LM
- 模型https://huggingface.co/RWKV
- 许可证Apache 2.0
## 参考
- [arXiv:2503.14456](https://arxiv.org/abs/2503.14456)
- [原始存档](raw/papers/peng-rwkv7-goose-2025.md)