2.0 KiB
2.0 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| In-Context Learning Rate | 2026-06-18 | 2026-06-18 | concept |
|
|
In-Context Learning Rate
定义
In-Context Learning Rate(上下文学习率)是 RWKV-7 中对 delta-rule 学习率的扩展:将传统的标量学习率 α 升级为输入依赖的向量值 a_t,使模型能在上下文中逐通道动态调整记忆更新的速度。
从标量到向量
DeltaNet (标量): S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t) α ∈ R
RWKV-7 (向量): S_t = S_{t-1} - a_t ⊙ ∇l(S_{t-1}, κ̂_t, v_t) a_t ∈ R^d
设计直觉
"学习率"的命名来自梯度下降的类比:将序列处理视为在线学习问题。a_t 决定了模型在多大程度上"相信"当前 token 提供的信息应覆盖已有记忆。
- a_t[ch] 大 → 该通道快速更新,当前 token 的信息权重大
- a_t[ch] 小 → 该通道保持稳定,忽略当前 token
这本质上是选择性机制的Delta 规则视角——Mamba 通过选择性 Δ 控制"关注多久",RWKV-7 通过 a_t 控制"更新多快"。
与 Mamba 选择性 Δ 的对比
| 维度 | Mamba (Δ_t) | RWKV-7 (a_t) |
|---|---|---|
| 机制 | SSM 离散化步长 | Delta 规则学习率 |
| 效果 | 控制状态保持 vs 重置 | 控制梯度更新步幅 |
| 向量/标量 | 向量(逐通道) | 向量(逐通道) |
| 数学框架 | 连续时间 ODE 离散化 | 在线梯度下降 |
两者实现相似功能(逐通道选择性),但数学推导属于不同范式。
相关概念
- delta-rule — In-Context Learning Rate 的起源
- generalized-delta-rule — 包含向量值学习率的完整形式
- vector-valued-gating — 与 a_t 配合的 w_t 门控
- selective-state-space — Mamba 的选择性 Δ(类比)
- peng-rwkv7
参考
- peng-rwkv7 (Peng et al., 2025)