20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/vector-valued-gating.md
+++ b/concepts/vector-valued-gating.md
@@ -0,0 +1,53 @@
+---
+title: "Vector-Valued Gating"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: ["rwkv", "gating", "sequence-modeling", "state-evolution"]
+sources: ["https://arxiv.org/abs/2503.14456"]
+---
+
+# Vector-Valued Gating
+
+## 定义
+
+Vector-Valued Gating（向量值门控）是 RWKV-7 中 [[generalized-delta-rule]] 的核心组件：将传统 RNN 的标量门控信号（如 LSTM 的遗忘门输出一个标量）扩展为**逐通道的向量**，使模型能对状态的不同维度独立控制遗忘/保留。
+
+## 在 RWKV-7 中的形式
+
+```
+S_t = S_{t-1} · (diag(w_t) - κ̂^T (a_t ⊙ κ̂)) + v_t^T · k_t
+```
+
+其中 `diag(w_t)` 是一个对角的衰减矩阵，w_t ∈ R^d 是输入依赖的 d 维向量。
+
+## 与标量门控的对比
+
+| 门控类型 | 代表架构 | 行为 |
+|---------|---------|------|
+| 标量门控 | LSTM (forget gate = 1 个值/单元)，GRU | 对整个状态维度均匀遗忘 |
+| 逐通道门控 | Mamba (Δ_t)，RWKV-7 (w_t) | 每个维度独立速率衰减 |
+
+向量值门控的本质是**选择性**的精细化版本：
+- 某个通道可以快速衰减（遗忘旧信息，适应新输入）
+- 另一个通道可以缓慢衰减（保留长距离上下文）
+
+## 为什么重要
+
+标量门控的根本局限是"一刀切"——所有状态维度必须以相同的速率更新或遗忘。然而，不同特征有不同的时间尺度需求：
+- 句法特征需要快速更新（每个新词都可能改变语法结构）
+- 主题特征需要缓慢更新（话题通常在多句内保持一致）
+
+向量值门控解决了这个矛盾。
+
+## 相关概念
+
+- [[generalized-delta-rule]] — 向量值门控是广义 Delta 规则的三个扩展之一
+- [[in-context-learning-rate]] — a_t 的逐通道特性
+- [[dynamic-state-evolution]] — 向量值门控 + Delta 规则 = 动态状态演化
+- [[selective-state-space]] — Mamba 的选择性（另一种逐通道方案）
+- [[peng-rwkv7|RWKV-7 论文]]
+
+## 参考
+
+- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)