Files
myWiki/concepts/vector-valued-gating.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Vector-Valued Gating 2026-06-18 2026-06-18 concept
rwkv
gating
sequence-modeling
state-evolution
https://arxiv.org/abs/2503.14456

Vector-Valued Gating

定义

Vector-Valued Gating向量值门控是 RWKV-7 中 generalized-delta-rule 的核心组件:将传统 RNN 的标量门控信号(如 LSTM 的遗忘门输出一个标量)扩展为逐通道的向量,使模型能对状态的不同维度独立控制遗忘/保留。

在 RWKV-7 中的形式

S_t = S_{t-1} · (diag(w_t) - κ̂^T (a_t ⊙ κ̂)) + v_t^T · k_t

其中 diag(w_t) 是一个对角的衰减矩阵w_t ∈ R^d 是输入依赖的 d 维向量。

与标量门控的对比

门控类型 代表架构 行为
标量门控 LSTM (forget gate = 1 个值/单元)GRU 对整个状态维度均匀遗忘
逐通道门控 Mamba (Δ_t)RWKV-7 (w_t) 每个维度独立速率衰减

向量值门控的本质是选择性的精细化版本:

  • 某个通道可以快速衰减(遗忘旧信息,适应新输入)
  • 另一个通道可以缓慢衰减(保留长距离上下文)

为什么重要

标量门控的根本局限是"一刀切"——所有状态维度必须以相同的速率更新或遗忘。然而,不同特征有不同的时间尺度需求:

  • 句法特征需要快速更新(每个新词都可能改变语法结构)
  • 主题特征需要缓慢更新(话题通常在多句内保持一致)

向量值门控解决了这个矛盾。

相关概念

参考