Files
myWiki/raw/papers/peng-rwkv7-goose-2025.md

3.9 KiB
Raw Blame History

title, authors, date, arxiv_id, categories, affiliations, paper_type, code, models
title authors date arxiv_id categories affiliations paper_type code models
RWKV-7 "Goose" with Expressive Dynamic State Evolution
Bo Peng
Ruichong Zhang
Daniel Goldstein
Eric Alcaide
et al.
2025-03-18 2503.14456v2
cs.CL
cs.AI
cs.LG
RWKV Project (Linux Foundation AI & Data)
EleutherAI
Tsinghua University
et al.
preprint https://github.com/RWKV/RWKV-LM https://huggingface.co/RWKV

RWKV-7 "Goose" with Expressive Dynamic State Evolution

摘要

RWKV-7 "Goose" 是一种新序列建模架构,具有常数内存使用和常数每 token 推理时间。尽管训练 token 数远少于同类顶级模型,其 2.9B 参数语言模型在多语言任务上达到新的 3B SoTA在英语下游性能上匹敌当前 3B SoTA。RWKV-7 核心创新:(1) 广义化的 delta 规则——带向量值门控上下文学习率(2) 松弛值替换规则(解耦移除和添加的 key。理论上RWKV-7 可执行状态追踪并识别所有正则语言,超越 Transformer 的 TC^0 限制。附带发布了 3.1T token 多语言语料和四个预训练模型0.19B-2.9B),全部 Apache 2.0。

核心贡献

  1. 广义 Delta 规则:将 DeltaNet 的标量 delta 规则扩展到向量值门控和上下文学习率
  2. 松弛值替换规则:解耦移除 keyk_remove和添加 keyk_add允许更灵活的状态更新
  3. 超越 TC^0 的表达力:证明 RWKV-7 可识别所有正则语言NC^1单层即可解决 S5 状态追踪
  4. 模型升级方法:从 RWKV-5/6 checkpoint 升级训练而非从头 pretrain节省计算
  5. RWKV World v3 数据集3.1T token 多语言开放语料

方法框架

从 DeltaNet 到广义 Delta Rule

传统 Delta 规则DeltaNet的形式

S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)

RWKV-7 的广义 Delta 规则引入三个创新:

1. 向量值门控Vector-valued Gating

S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t

其中 w_t 是动态衰减flexible decaya_t 是向量值上下文学习率κ̂_t 是归一化的 key。

2. 向量值上下文学习率in-context learning rate a_t 从标量升级为向量d 维),允许模型逐通道选择性替换状态数据。

3. 广义特征值Generalized Eigenvalue 进化矩阵可拥有 [0, 1] 区间外的特征值 → 表达能力超越标准 SSM。

与各架构对比

架构 大状态 灵活衰减 动态依赖 广义特征值
RWKV-4
Mamba
RWKV-6 / GLA
Gated DeltaNet
RWKV-7

理论突破

RWKV-7 是首个被证明超越 TC^0 的并行化可训练 RNN 架构(在 TC^0 ≠ NC^1 猜想下):

  • 单层可解决 S5 状态追踪NC^1 问题)
  • 常数层可识别任意正则语言
  • Transformerstandard被限制在 TC^0

实验结果

  • 2.9B 多语言3B 规模多语言 SoTA英语匹敌当前 3B SoTA
  • 训练效率:训练 token 远少于同等规模模型
  • 长上下文:常数内存,推理成本不随序列长度增长
  • 关联回忆Associative Recall:在合成任务上显著优于 RWKV-6

关键概念

参考