20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/rwkv.md
+++ b/concepts/rwkv.md
@@ -0,0 +1,59 @@
+---
+title: "RWKV (Receptance Weighted Key Value)"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: ["rnn", "linear-attention", "sequence-modeling", "architecture"]
+sources: ["https://arxiv.org/abs/2503.14456"]
+---
+
+# RWKV
+
+## 定义
+
+RWKV（Receptance Weighted Key Value）是一族线性复杂度的 RNN 架构，结合了 Transformer 的并行训练优势与 RNN 的常数推理内存。从 RWKV-4 到 RWKV-7，逐步将线性注意力、[[delta-rule]]、[[state-space-models|SSM]] 的思想融合进统一的序列建模框架。
+
+## 架构演进
+
+| 版本 | 代号 | 核心创新 | 复杂度类 |
+|------|------|---------|---------|
+| RWKV-4 | — | WKV 线性注意力 + token shift | TC^0 |
+| RWKV-5 | Eagle | 多头矩阵值状态 | TC^0 |
+| RWKV-6 | Finch | 动态衰减 + 数据依赖 | TC^0 |
+| **RWKV-7** | **Goose** | **广义 Delta 规则 + 向量门控** | **NC^1** |
+
+## 核心设计理念
+
+RWKV 始终坚持：
+- **线性复杂度**：训练 O(n)，推理 O(1) 内存
+- **全并行训练**：不使用 BPTT，通过 chunked parallel scan
+- **常数推理**：无 KV cache，单 token 推理成本恒定
+- **开源**：Apache 2.0，权重 + 代码 + 数据公开
+
+## WKV 时间混合
+
+RWKV 的核心是 WKV（Weighted Key Value）算子，可以视为受线性注意力启发的 RNN 循环：
+
+```
+w_t = softplus(W_w · x_t) 或更复杂的函数
+k_t = W_k · x_t
+v_t = W_v · x_t
+状态 = 衰减(旧状态) + 新信息(k_t, v_t)
+```
+
+每个版本在"如何衰减、如何整合新信息"上有不同的数学形式。
+
+## 相关概念
+
+- [[token-shift]] — RWKV 家族的时间混合技巧
+- [[wkv-time-mixing]] — WKV 算子的具体机制
+- [[delta-rule]] — RWKV-7 引入的广义 delta 规则
+- [[generalized-delta-rule]] — RWKV-7 的核心创新
+- [[regular-language-recognition]] — RWKV-7 的理论突破
+- [[peng-rwkv7|RWKV-7 论文]]
+- [[state-space-models]] — SSM 视角下的 RWKV
+
+## 参考
+
+- RWKV-4 (Peng et al., 2023)
+- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)