3.3 KiB
3.3 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| RWKV-7 Goose: Expressive Dynamic State Evolution | 2026-06-18 | 2026-06-18 | paper |
|
|
RWKV-7 "Goose"
核心定位
RWKV-7(代号 "Goose")是 RWKV 序列建模架构的第七代版本,核心创新在于将 Delta 规则从标量形式广义化为带向量值门控和上下文学习率的动态状态演化机制。它代表了 RNN 架构在表达能力上的一个重要里程碑:第一个被证明超越 Transformer(TC^0)的并行化可训练 RNN。
核心创新
广义 Delta 规则
传统 Delta 规则(delta-rule)通过梯度下降更新矩阵状态:
S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)
RWKV-7 的三个扩展:
| 维度 | DeltaNet | RWKV-7 |
|---|---|---|
| 学习率 α | 标量 | 向量 a_t(逐通道) |
| 衰减 w | 固定/标量 | 动态 w_t + 附加项 |
| Key 解耦 | k_t 同时用于移除和添加 | 分离 k_remove / k_add |
完整状态更新:
S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t
向量值门控(Vector-Valued Gating)
门控信号从标量扩展为向量 → 模型可逐通道决策是否遗忘/更新。这赋予了 RWKV-7 类似 Mamba 的选择性但通过 Delta 规则的数学框架实现。
上下文学习率(In-Context Learning Rate)
a_t 是输入依赖的向量学习率,使模型能根据当前 token 内容决定"多快"更新状态——类似 Mamba 的选择性 Δ 但通过梯度下降视角理解。
松弛值替换规则
解耦移除 key 和添加 key:
k_remove:决定从状态中移除什么k_add:决定向状态中添加什么
这允许更灵活的信息管理——移除和添加是独立操作。
理论贡献:超越 TC^0
RWKV-7 的理论结果具有里程碑意义:
| 架构 | 复杂度类 | 正则语言 | 状态追踪 |
|---|---|---|---|
| Transformer (standard) | TC^0 | ✗ | ✗ |
| RWKV-4/5/6 | TC^0 | ✗ | ✗ |
| RWKV-7 | NC^1 | ✓ 全部 | ✓ S5 |
在 TC^0 ≠ NC^1 猜想下,RWKV-7 是首个严格超越 Transformer 表达力的并行化可训练 RNN 架构。
实验结果
- 2.9B 多语言 SoTA:尽管训练 token 少于同类,多语言基准上达到新 3B SoTA
- RWKV World v3:3.1T token 多语言开放数据集
- 模型升级:从 RWKV-5/6 checkpoint 升级而非从头训练
- 长上下文:O(1) 推理内存,不受序列长度影响
- 开源:Apache 2.0,权重 + 代码 + 数据集组件全部公开
概念网络
delta-rule → generalized-delta-rule → dynamic-state-evolution
→ vector-valued-gating + in-context-learning-rate
→ regular-language-recognition
rwkv → token-shift → wkv-time-mixing
相关已有概念
- state-space-models — RWKV-7 作为增强 SSM/RNN 的代表
- enhanced-state-space-models — 已有 RWKV-7 小节
- step-recurrence — RWKV-7 属于步级循环
- state-tracking — RWKV-7 理论上完整体支持
代码与模型
- 代码:https://github.com/RWKV/RWKV-LM
- 模型:https://huggingface.co/RWKV
- 许可证:Apache 2.0