Files
myWiki/concepts/in-context-learning-rate.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
In-Context Learning Rate 2026-06-18 2026-06-18 concept
rwkv
delta-rule
gradient-based-memory
https://arxiv.org/abs/2503.14456

In-Context Learning Rate

定义

In-Context Learning Rate上下文学习率是 RWKV-7 中对 delta-rule 学习率的扩展:将传统的标量学习率 α 升级为输入依赖的向量值 a_t使模型能在上下文中逐通道动态调整记忆更新的速度。

从标量到向量

DeltaNet (标量):  S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t)    α ∈ R
RWKV-7 (向量):    S_t = S_{t-1} - a_t ⊙ ∇l(S_{t-1}, κ̂_t, v_t)  a_t ∈ R^d

设计直觉

"学习率"的命名来自梯度下降的类比将序列处理视为在线学习问题。a_t 决定了模型在多大程度上"相信"当前 token 提供的信息应覆盖已有记忆。

  • a_t[ch] 大 → 该通道快速更新,当前 token 的信息权重大
  • a_t[ch] 小 → 该通道保持稳定,忽略当前 token

这本质上是选择性机制的Delta 规则视角——Mamba 通过选择性 Δ 控制"关注多久"RWKV-7 通过 a_t 控制"更新多快"。

与 Mamba 选择性 Δ 的对比

维度 Mamba (Δ_t) RWKV-7 (a_t)
机制 SSM 离散化步长 Delta 规则学习率
效果 控制状态保持 vs 重置 控制梯度更新步幅
向量/标量 向量(逐通道) 向量(逐通道)
数学框架 连续时间 ODE 离散化 在线梯度下降

两者实现相似功能(逐通道选择性),但数学推导属于不同范式。

相关概念

参考