SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

3.3 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

RWKV-7 "Goose"

核心定位

RWKV-7（代号 "Goose"）是 RWKV 序列建模架构的第七代版本，核心创新在于将 Delta 规则从标量形式广义化为带向量值门控和上下文学习率的动态状态演化机制。它代表了 RNN 架构在表达能力上的一个重要里程碑：第一个被证明超越 Transformer（TC^0）的并行化可训练 RNN。

核心创新

广义 Delta 规则

传统 Delta 规则（delta-rule）通过梯度下降更新矩阵状态：

S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)

RWKV-7 的三个扩展：

维度	DeltaNet	RWKV-7
学习率 α	标量	向量 a_t（逐通道）
衰减 w	固定/标量	动态 w_t + 附加项
Key 解耦	k_t 同时用于移除和添加	分离 k_remove / k_add

完整状态更新：

S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t

向量值门控（Vector-Valued Gating）

门控信号从标量扩展为向量 → 模型可逐通道决策是否遗忘/更新。这赋予了 RWKV-7 类似 Mamba 的选择性但通过 Delta 规则的数学框架实现。

上下文学习率（In-Context Learning Rate）

a_t 是输入依赖的向量学习率，使模型能根据当前 token 内容决定"多快"更新状态——类似 Mamba 的选择性 Δ 但通过梯度下降视角理解。

松弛值替换规则

解耦移除 key 和添加 key：

k_remove：决定从状态中移除什么
k_add：决定向状态中添加什么

这允许更灵活的信息管理——移除和添加是独立操作。

理论贡献：超越 TC^0

RWKV-7 的理论结果具有里程碑意义：

架构	复杂度类	正则语言	状态追踪
Transformer (standard)	TC^0	✗	✗
RWKV-4/5/6	TC^0	✗	✗
RWKV-7	NC^1	✓ 全部	✓ S5

在 TC^0 ≠ NC^1 猜想下，RWKV-7 是首个严格超越 Transformer 表达力的并行化可训练 RNN 架构。

实验结果

2.9B 多语言 SoTA：尽管训练 token 少于同类，多语言基准上达到新 3B SoTA
RWKV World v3：3.1T token 多语言开放数据集
模型升级：从 RWKV-5/6 checkpoint 升级而非从头训练
长上下文：O(1) 推理内存，不受序列长度影响
开源：Apache 2.0，权重 + 代码 + 数据集组件全部公开

概念网络

delta-rule → generalized-delta-rule → dynamic-state-evolution
  → vector-valued-gating + in-context-learning-rate
  → regular-language-recognition

rwkv → token-shift → wkv-time-mixing

代码与模型

代码：https://github.com/RWKV/RWKV-LM
模型：https://huggingface.co/RWKV
许可证：Apache 2.0

3.3 KiB

Raw Blame History

RWKV-7 "Goose"

核心定位

核心创新

广义 Delta 规则

向量值门控（Vector-Valued Gating）

上下文学习率（In-Context Learning Rate）

松弛值替换规则

理论贡献：超越 TC^0

实验结果

概念网络

相关已有概念

代码与模型

参考

3.3 KiB Raw Blame History Unescape Escape

RWKV-7 "Goose"

核心定位

核心创新

广义 Delta 规则

向量值门控（Vector-Valued Gating）

上下文学习率（In-Context Learning Rate）

松弛值替换规则

理论贡献：超越 TC^0

实验结果

概念网络

相关已有概念

代码与模型

参考

3.3 KiB

Raw Blame History