Generalized Delta Rule

定义

Generalized Delta Rule（广义 Delta 规则）是 RWKV-7 对经典 delta-rule 的三重扩展，代表了 Delta 规则从学习记忆到序列建模的完整演进。它在保留梯度下降式状态更新框架的同时，引入向量值门控、上下文学习率和键解耦合。

传统 Delta 规则 α 是标量 → RWKV-7 的 a_t 是 d 维向量：

S_t = S_{t-1} · (I - a_t · κ̂_t^2) + v_t^T · k_t  （简化形式）

效果：模型可逐通道以不同速率更新状态——某些通道快速适应新信息，另一些保持稳定。

引入动态衰减项 w_t（vector-valued-gating）：

S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t

其中 diag(w_t) 实现逐通道衰减，κ̂_t^T (a_t ⊙ κ̂_t) 实现基于内容的选择性遗忘。

解耦移除 key（k_remove）和添加 key（k_add）：

S_t = S_{t-1} · (diag(w_t) - κ̂_remove^T (a_t ⊙ κ̂_add)) + v_t^T · k_add

其中 w_t, a_t, κ̂ 均依赖当前输入 x_t。

广义 Delta 规则使 RWKV-7 的表达力从 TC^0 跃升至 NC^1：