20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,53 @@
---
title: "In-Context Learning Rate"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["rwkv", "delta-rule", "gradient-based-memory"]
sources: ["https://arxiv.org/abs/2503.14456"]
---
# In-Context Learning Rate
## 定义
In-Context Learning Rate上下文学习率是 RWKV-7 中对 [[delta-rule]] 学习率的扩展:将传统的标量学习率 α 升级为输入依赖的**向量值** a_t使模型能在上下文中**逐通道**动态调整记忆更新的速度。
## 从标量到向量
```
DeltaNet (标量): S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t) α ∈ R
RWKV-7 (向量): S_t = S_{t-1} - a_t ⊙ ∇l(S_{t-1}, κ̂_t, v_t) a_t ∈ R^d
```
## 设计直觉
"学习率"的命名来自梯度下降的类比将序列处理视为在线学习问题。a_t 决定了模型在多大程度上"相信"当前 token 提供的信息应覆盖已有记忆。
- a_t[ch] 大 → 该通道快速更新,当前 token 的信息权重大
- a_t[ch] 小 → 该通道保持稳定,忽略当前 token
这本质上是选择性机制的**Delta 规则视角**——Mamba 通过选择性 Δ 控制"关注多久"RWKV-7 通过 a_t 控制"更新多快"。
## 与 Mamba 选择性 Δ 的对比
| 维度 | Mamba (Δ_t) | RWKV-7 (a_t) |
|------|-----------|-------------|
| 机制 | SSM 离散化步长 | Delta 规则学习率 |
| 效果 | 控制状态保持 vs 重置 | 控制梯度更新步幅 |
| 向量/标量 | 向量(逐通道) | 向量(逐通道) |
| 数学框架 | 连续时间 ODE 离散化 | 在线梯度下降 |
两者实现相似功能(逐通道选择性),但数学推导属于不同范式。
## 相关概念
- [[delta-rule]] — In-Context Learning Rate 的起源
- [[generalized-delta-rule]] — 包含向量值学习率的完整形式
- [[vector-valued-gating]] — 与 a_t 配合的 w_t 门控
- [[selective-state-space]] — Mamba 的选择性 Δ(类比)
- [[peng-rwkv7|RWKV-7 论文]]
## 参考
- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)