54 lines
2.0 KiB
Markdown
54 lines
2.0 KiB
Markdown
---
|
||
title: "In-Context Learning Rate"
|
||
created: 2026-06-18
|
||
updated: 2026-06-18
|
||
type: concept
|
||
tags: ["rwkv", "delta-rule", "gradient-based-memory"]
|
||
sources: ["https://arxiv.org/abs/2503.14456"]
|
||
---
|
||
|
||
# In-Context Learning Rate
|
||
|
||
## 定义
|
||
|
||
In-Context Learning Rate(上下文学习率)是 RWKV-7 中对 [[delta-rule]] 学习率的扩展:将传统的标量学习率 α 升级为输入依赖的**向量值** a_t,使模型能在上下文中**逐通道**动态调整记忆更新的速度。
|
||
|
||
## 从标量到向量
|
||
|
||
```
|
||
DeltaNet (标量): S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t) α ∈ R
|
||
RWKV-7 (向量): S_t = S_{t-1} - a_t ⊙ ∇l(S_{t-1}, κ̂_t, v_t) a_t ∈ R^d
|
||
```
|
||
|
||
## 设计直觉
|
||
|
||
"学习率"的命名来自梯度下降的类比:将序列处理视为在线学习问题。a_t 决定了模型在多大程度上"相信"当前 token 提供的信息应覆盖已有记忆。
|
||
|
||
- a_t[ch] 大 → 该通道快速更新,当前 token 的信息权重大
|
||
- a_t[ch] 小 → 该通道保持稳定,忽略当前 token
|
||
|
||
这本质上是选择性机制的**Delta 规则视角**——Mamba 通过选择性 Δ 控制"关注多久",RWKV-7 通过 a_t 控制"更新多快"。
|
||
|
||
## 与 Mamba 选择性 Δ 的对比
|
||
|
||
| 维度 | Mamba (Δ_t) | RWKV-7 (a_t) |
|
||
|------|-----------|-------------|
|
||
| 机制 | SSM 离散化步长 | Delta 规则学习率 |
|
||
| 效果 | 控制状态保持 vs 重置 | 控制梯度更新步幅 |
|
||
| 向量/标量 | 向量(逐通道) | 向量(逐通道) |
|
||
| 数学框架 | 连续时间 ODE 离散化 | 在线梯度下降 |
|
||
|
||
两者实现相似功能(逐通道选择性),但数学推导属于不同范式。
|
||
|
||
## 相关概念
|
||
|
||
- [[delta-rule]] — In-Context Learning Rate 的起源
|
||
- [[generalized-delta-rule]] — 包含向量值学习率的完整形式
|
||
- [[vector-valued-gating]] — 与 a_t 配合的 w_t 门控
|
||
- [[selective-state-space]] — Mamba 的选择性 Δ(类比)
|
||
- [[peng-rwkv7|RWKV-7 论文]]
|
||
|
||
## 参考
|
||
|
||
- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)
|