Files
myWiki/concepts/in-context-learning-rate.md

54 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "In-Context Learning Rate"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["rwkv", "delta-rule", "gradient-based-memory"]
sources: ["https://arxiv.org/abs/2503.14456"]
---
# In-Context Learning Rate
## 定义
In-Context Learning Rate上下文学习率是 RWKV-7 中对 [[delta-rule]] 学习率的扩展:将传统的标量学习率 α 升级为输入依赖的**向量值** a_t使模型能在上下文中**逐通道**动态调整记忆更新的速度。
## 从标量到向量
```
DeltaNet (标量): S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t) α ∈ R
RWKV-7 (向量): S_t = S_{t-1} - a_t ⊙ ∇l(S_{t-1}, κ̂_t, v_t) a_t ∈ R^d
```
## 设计直觉
"学习率"的命名来自梯度下降的类比将序列处理视为在线学习问题。a_t 决定了模型在多大程度上"相信"当前 token 提供的信息应覆盖已有记忆。
- a_t[ch] 大 → 该通道快速更新,当前 token 的信息权重大
- a_t[ch] 小 → 该通道保持稳定,忽略当前 token
这本质上是选择性机制的**Delta 规则视角**——Mamba 通过选择性 Δ 控制"关注多久"RWKV-7 通过 a_t 控制"更新多快"。
## 与 Mamba 选择性 Δ 的对比
| 维度 | Mamba (Δ_t) | RWKV-7 (a_t) |
|------|-----------|-------------|
| 机制 | SSM 离散化步长 | Delta 规则学习率 |
| 效果 | 控制状态保持 vs 重置 | 控制梯度更新步幅 |
| 向量/标量 | 向量(逐通道) | 向量(逐通道) |
| 数学框架 | 连续时间 ODE 离散化 | 在线梯度下降 |
两者实现相似功能(逐通道选择性),但数学推导属于不同范式。
## 相关概念
- [[delta-rule]] — In-Context Learning Rate 的起源
- [[generalized-delta-rule]] — 包含向量值学习率的完整形式
- [[vector-valued-gating]] — 与 a_t 配合的 w_t 门控
- [[selective-state-space]] — Mamba 的选择性 Δ(类比)
- [[peng-rwkv7|RWKV-7 论文]]
## 参考
- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)