SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

3.9 KiB

Raw Blame History

title, authors, date, arxiv_id, categories, affiliations, paper_type, code, models

title

authors

date

arxiv_id

RWKV-7 "Goose" with Expressive Dynamic State Evolution

摘要

RWKV-7 "Goose" 是一种新序列建模架构，具有常数内存使用和常数每 token 推理时间。尽管训练 token 数远少于同类顶级模型，其 2.9B 参数语言模型在多语言任务上达到新的 3B SoTA，在英语下游性能上匹敌当前 3B SoTA。RWKV-7 核心创新：(1) 广义化的 delta 规则——带向量值门控和上下文学习率；(2) 松弛值替换规则（解耦移除和添加的 key）。理论上，RWKV-7 可执行状态追踪并识别所有正则语言，超越 Transformer 的 TC^0 限制。附带发布了 3.1T token 多语言语料和四个预训练模型（0.19B-2.9B），全部 Apache 2.0。

核心贡献

广义 Delta 规则：将 DeltaNet 的标量 delta 规则扩展到向量值门控和上下文学习率
松弛值替换规则：解耦移除 key（k_remove）和添加 key（k_add），允许更灵活的状态更新
超越 TC^0 的表达力：证明 RWKV-7 可识别所有正则语言（NC^1），单层即可解决 S5 状态追踪
模型升级方法：从 RWKV-5/6 checkpoint 升级训练而非从头 pretrain，节省计算
RWKV World v3 数据集：3.1T token 多语言开放语料

方法框架

从 DeltaNet 到广义 Delta Rule

传统 Delta 规则（DeltaNet）的形式：

S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)

RWKV-7 的广义 Delta 规则引入三个创新：

1. 向量值门控（Vector-valued Gating）：

S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t

其中 w_t 是动态衰减（flexible decay），a_t 是向量值上下文学习率，κ̂_t 是归一化的 key。

2. 向量值上下文学习率（in-context learning rate）： a_t 从标量升级为向量（d 维），允许模型逐通道选择性替换状态数据。

3. 广义特征值（Generalized Eigenvalue）：进化矩阵可拥有 [0, 1] 区间外的特征值 → 表达能力超越标准 SSM。

与各架构对比

架构	大状态	灵活衰减	动态依赖	广义特征值
RWKV-4	✗	✗	✗	✗
Mamba	✗	✓	✓	✗
RWKV-6 / GLA	✗	✓	✓	✗
Gated DeltaNet	✓	✗	✓	✓
RWKV-7	✓	✓	✓	✓

理论突破

RWKV-7 是首个被证明超越 TC^0 的并行化可训练 RNN 架构（在 TC^0 ≠ NC^1 猜想下）：

单层可解决 S5 状态追踪（NC^1 问题）
常数层可识别任意正则语言
Transformer（standard）被限制在 TC^0

实验结果

2.9B 多语言：3B 规模多语言 SoTA，英语匹敌当前 3B SoTA
训练效率：训练 token 远少于同等规模模型
长上下文：常数内存，推理成本不随序列长度增长
关联回忆（Associative Recall）：在合成任务上显著优于 RWKV-6

关键概念

delta-rule → generalized-delta-rule — Delta 规则的演进路径
vector-valued-gating — RWKV-7 的向量值门控机制
in-context-learning-rate — 逐通道上下文学习率
dynamic-state-evolution — 动态状态演化机制
token-shift — RWKV 家族的时间混合技巧
regular-language-recognition — 理论突破：识别所有正则语言
wkv-time-mixing — RWKV-7 的 WKV 时间混合机制

参考

代码：https://github.com/RWKV/RWKV-LM
模型：https://huggingface.co/RWKV
DeltaNet (Schlag et al., 2021)
RWKV-6 / Finch (Peng et al., 2024)

3.9 KiB Raw Blame History Unescape Escape