20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/in-context-learning-rate.md
+++ b/concepts/in-context-learning-rate.md
@@ -0,0 +1,53 @@
+---
+title: "In-Context Learning Rate"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: ["rwkv", "delta-rule", "gradient-based-memory"]
+sources: ["https://arxiv.org/abs/2503.14456"]
+---
+
+# In-Context Learning Rate
+
+## 定义
+
+In-Context Learning Rate（上下文学习率）是 RWKV-7 中对 [[delta-rule]] 学习率的扩展：将传统的标量学习率 α 升级为输入依赖的**向量值** a_t，使模型能在上下文中**逐通道**动态调整记忆更新的速度。
+
+## 从标量到向量
+
+```
+DeltaNet (标量):  S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)    α ∈ R
+RWKV-7 (向量):    S_t = S_{t-1} - a_t ⊙ ∇l(S_{t-1}, κ̂_t, v_t)  a_t ∈ R^d
+```
+
+## 设计直觉
+
+"学习率"的命名来自梯度下降的类比：将序列处理视为在线学习问题。a_t 决定了模型在多大程度上"相信"当前 token 提供的信息应覆盖已有记忆。
+
+- a_t[ch] 大 → 该通道快速更新，当前 token 的信息权重大
+- a_t[ch] 小 → 该通道保持稳定，忽略当前 token
+
+这本质上是选择性机制的**Delta 规则视角**——Mamba 通过选择性 Δ 控制"关注多久"，RWKV-7 通过 a_t 控制"更新多快"。
+
+## 与 Mamba 选择性 Δ 的对比
+
+| 维度 | Mamba (Δ_t) | RWKV-7 (a_t) |
+|------|-----------|-------------|
+| 机制 | SSM 离散化步长 | Delta 规则学习率 |
+| 效果 | 控制状态保持 vs 重置 | 控制梯度更新步幅 |
+| 向量/标量 | 向量（逐通道） | 向量（逐通道） |
+| 数学框架 | 连续时间 ODE 离散化 | 在线梯度下降 |
+
+两者实现相似功能（逐通道选择性），但数学推导属于不同范式。
+
+## 相关概念
+
+- [[delta-rule]] — In-Context Learning Rate 的起源
+- [[generalized-delta-rule]] — 包含向量值学习率的完整形式
+- [[vector-valued-gating]] — 与 a_t 配合的 w_t 门控
+- [[selective-state-space]] — Mamba 的选择性 Δ（类比）
+- [[peng-rwkv7|RWKV-7 论文]]
+
+## 参考
+
+- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)