SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

2.0 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

In-Context Learning Rate

2026-06-18

2026-06-18

concept

rwkv

delta-rule

gradient-based-memory

https://arxiv.org/abs/2503.14456

In-Context Learning Rate

定义

In-Context Learning Rate（上下文学习率）是 RWKV-7 中对 delta-rule 学习率的扩展：将传统的标量学习率 α 升级为输入依赖的向量值 a_t，使模型能在上下文中逐通道动态调整记忆更新的速度。

从标量到向量

DeltaNet (标量):  S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)    α ∈ R
RWKV-7 (向量):    S_t = S_{t-1} - a_t ⊙ ∇l(S_{t-1}, κ̂_t, v_t)  a_t ∈ R^d

设计直觉

"学习率"的命名来自梯度下降的类比：将序列处理视为在线学习问题。a_t 决定了模型在多大程度上"相信"当前 token 提供的信息应覆盖已有记忆。

a_t[ch] 大 → 该通道快速更新，当前 token 的信息权重大
a_t[ch] 小 → 该通道保持稳定，忽略当前 token

这本质上是选择性机制的Delta 规则视角——Mamba 通过选择性 Δ 控制"关注多久"，RWKV-7 通过 a_t 控制"更新多快"。

与 Mamba 选择性 Δ 的对比

维度	Mamba (Δ_t)	RWKV-7 (a_t)
机制	SSM 离散化步长	Delta 规则学习率
效果	控制状态保持 vs 重置	控制梯度更新步幅
向量/标量	向量（逐通道）	向量（逐通道）
数学框架	连续时间 ODE 离散化	在线梯度下降

两者实现相似功能（逐通道选择性），但数学推导属于不同范式。

相关概念

delta-rule — In-Context Learning Rate 的起源
generalized-delta-rule — 包含向量值学习率的完整形式
vector-valued-gating — 与 a_t 配合的 w_t 门控
selective-state-space — Mamba 的选择性 Δ（类比）
peng-rwkv7

参考

peng-rwkv7 (Peng et al., 2025)