Files
myWiki/concepts/vector-valued-gating.md

54 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Vector-Valued Gating"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["rwkv", "gating", "sequence-modeling", "state-evolution"]
sources: ["https://arxiv.org/abs/2503.14456"]
---
# Vector-Valued Gating
## 定义
Vector-Valued Gating向量值门控是 RWKV-7 中 [[generalized-delta-rule]] 的核心组件:将传统 RNN 的标量门控信号(如 LSTM 的遗忘门输出一个标量)扩展为**逐通道的向量**,使模型能对状态的不同维度独立控制遗忘/保留。
## 在 RWKV-7 中的形式
```
S_t = S_{t-1} · (diag(w_t) - κ̂^T (a_t ⊙ κ̂)) + v_t^T · k_t
```
其中 `diag(w_t)` 是一个对角的衰减矩阵w_t ∈ R^d 是输入依赖的 d 维向量。
## 与标量门控的对比
| 门控类型 | 代表架构 | 行为 |
|---------|---------|------|
| 标量门控 | LSTM (forget gate = 1 个值/单元)GRU | 对整个状态维度均匀遗忘 |
| 逐通道门控 | Mamba (Δ_t)RWKV-7 (w_t) | 每个维度独立速率衰减 |
向量值门控的本质是**选择性**的精细化版本:
- 某个通道可以快速衰减(遗忘旧信息,适应新输入)
- 另一个通道可以缓慢衰减(保留长距离上下文)
## 为什么重要
标量门控的根本局限是"一刀切"——所有状态维度必须以相同的速率更新或遗忘。然而,不同特征有不同的时间尺度需求:
- 句法特征需要快速更新(每个新词都可能改变语法结构)
- 主题特征需要缓慢更新(话题通常在多句内保持一致)
向量值门控解决了这个矛盾。
## 相关概念
- [[generalized-delta-rule]] — 向量值门控是广义 Delta 规则的三个扩展之一
- [[in-context-learning-rate]] — a_t 的逐通道特性
- [[dynamic-state-evolution]] — 向量值门控 + Delta 规则 = 动态状态演化
- [[selective-state-space]] — Mamba 的选择性(另一种逐通道方案)
- [[peng-rwkv7|RWKV-7 论文]]
## 参考
- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)