myWiki/concepts/in-context-learning-rate.md

---
title: "In-Context Learning Rate"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["rwkv", "delta-rule", "gradient-based-memory"]
sources: ["https://arxiv.org/abs/2503.14456"]
---

# In-Context Learning Rate

## 定义

In-Context Learning Rate（上下文学习率）是 RWKV-7 中对 [[delta-rule]] 学习率的扩展：将传统的标量学习率 α 升级为输入依赖的**向量值** a_t，使模型能在上下文中**逐通道**动态调整记忆更新的速度。

## 从标量到向量

```
DeltaNet (标量):  S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)    α ∈ R
RWKV-7 (向量):    S_t = S_{t-1} - a_t ⊙ ∇l(S_{t-1}, κ̂_t, v_t)  a_t ∈ R^d
```

## 设计直觉

"学习率"的命名来自梯度下降的类比：将序列处理视为在线学习问题。a_t 决定了模型在多大程度上"相信"当前 token 提供的信息应覆盖已有记忆。

- a_t[ch] 大 → 该通道快速更新，当前 token 的信息权重大
- a_t[ch] 小 → 该通道保持稳定，忽略当前 token

这本质上是选择性机制的**Delta 规则视角**——Mamba 通过选择性 Δ 控制"关注多久"，RWKV-7 通过 a_t 控制"更新多快"。

## 与 Mamba 选择性 Δ 的对比

| 维度 | Mamba (Δ_t) | RWKV-7 (a_t) |
|------|-----------|-------------|
| 机制 | SSM 离散化步长 | Delta 规则学习率 |
| 效果 | 控制状态保持 vs 重置 | 控制梯度更新步幅 |
| 向量/标量 | 向量（逐通道） | 向量（逐通道） |
| 数学框架 | 连续时间 ODE 离散化 | 在线梯度下降 |

两者实现相似功能（逐通道选择性），但数学推导属于不同范式。

## 相关概念

- [[delta-rule]] — In-Context Learning Rate 的起源
- [[generalized-delta-rule]] — 包含向量值学习率的完整形式
- [[vector-valued-gating]] — 与 a_t 配合的 w_t 门控
- [[selective-state-space]] — Mamba 的选择性 Δ（类比）
- [[peng-rwkv7|RWKV-7 论文]]

## 参考

- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)