3.9 KiB
3.9 KiB
title, authors, date, arxiv_id, categories, affiliations, paper_type, code, models
| title | authors | date | arxiv_id | categories | affiliations | paper_type | code | models | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| RWKV-7 "Goose" with Expressive Dynamic State Evolution |
|
2025-03-18 | 2503.14456v2 |
|
|
preprint | https://github.com/RWKV/RWKV-LM | https://huggingface.co/RWKV |
RWKV-7 "Goose" with Expressive Dynamic State Evolution
摘要
RWKV-7 "Goose" 是一种新序列建模架构,具有常数内存使用和常数每 token 推理时间。尽管训练 token 数远少于同类顶级模型,其 2.9B 参数语言模型在多语言任务上达到新的 3B SoTA,在英语下游性能上匹敌当前 3B SoTA。RWKV-7 核心创新:(1) 广义化的 delta 规则——带向量值门控和上下文学习率;(2) 松弛值替换规则(解耦移除和添加的 key)。理论上,RWKV-7 可执行状态追踪并识别所有正则语言,超越 Transformer 的 TC^0 限制。附带发布了 3.1T token 多语言语料和四个预训练模型(0.19B-2.9B),全部 Apache 2.0。
核心贡献
- 广义 Delta 规则:将 DeltaNet 的标量 delta 规则扩展到向量值门控和上下文学习率
- 松弛值替换规则:解耦移除 key(k_remove)和添加 key(k_add),允许更灵活的状态更新
- 超越 TC^0 的表达力:证明 RWKV-7 可识别所有正则语言(NC^1),单层即可解决 S5 状态追踪
- 模型升级方法:从 RWKV-5/6 checkpoint 升级训练而非从头 pretrain,节省计算
- RWKV World v3 数据集:3.1T token 多语言开放语料
方法框架
从 DeltaNet 到广义 Delta Rule
传统 Delta 规则(DeltaNet)的形式:
S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)
RWKV-7 的广义 Delta 规则引入三个创新:
1. 向量值门控(Vector-valued Gating):
S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t
其中 w_t 是动态衰减(flexible decay),a_t 是向量值上下文学习率,κ̂_t 是归一化的 key。
2. 向量值上下文学习率(in-context learning rate): a_t 从标量升级为向量(d 维),允许模型逐通道选择性替换状态数据。
3. 广义特征值(Generalized Eigenvalue): 进化矩阵可拥有 [0, 1] 区间外的特征值 → 表达能力超越标准 SSM。
与各架构对比
| 架构 | 大状态 | 灵活衰减 | 动态依赖 | 广义特征值 |
|---|---|---|---|---|
| RWKV-4 | ✗ | ✗ | ✗ | ✗ |
| Mamba | ✗ | ✓ | ✓ | ✗ |
| RWKV-6 / GLA | ✗ | ✓ | ✓ | ✗ |
| Gated DeltaNet | ✓ | ✗ | ✓ | ✓ |
| RWKV-7 | ✓ | ✓ | ✓ | ✓ |
理论突破
RWKV-7 是首个被证明超越 TC^0 的并行化可训练 RNN 架构(在 TC^0 ≠ NC^1 猜想下):
- 单层可解决 S5 状态追踪(NC^1 问题)
- 常数层可识别任意正则语言
- Transformer(standard)被限制在 TC^0
实验结果
- 2.9B 多语言:3B 规模多语言 SoTA,英语匹敌当前 3B SoTA
- 训练效率:训练 token 远少于同等规模模型
- 长上下文:常数内存,推理成本不随序列长度增长
- 关联回忆(Associative Recall):在合成任务上显著优于 RWKV-6
关键概念
- delta-rule → generalized-delta-rule — Delta 规则的演进路径
- vector-valued-gating — RWKV-7 的向量值门控机制
- in-context-learning-rate — 逐通道上下文学习率
- dynamic-state-evolution — 动态状态演化机制
- token-shift — RWKV 家族的时间混合技巧
- regular-language-recognition — 理论突破:识别所有正则语言
- wkv-time-mixing — RWKV-7 的 WKV 时间混合机制
参考
- 代码:https://github.com/RWKV/RWKV-LM
- 模型:https://huggingface.co/RWKV
- DeltaNet (Schlag et al., 2021)
- RWKV-6 / Finch (Peng et al., 2024)