Files
myWiki/concepts/rwkv.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
RWKV (Receptance Weighted Key Value) 2026-06-18 2026-06-18 concept
rnn
linear-attention
sequence-modeling
architecture
https://arxiv.org/abs/2503.14456

RWKV

定义

RWKVReceptance Weighted Key Value是一族线性复杂度的 RNN 架构,结合了 Transformer 的并行训练优势与 RNN 的常数推理内存。从 RWKV-4 到 RWKV-7逐步将线性注意力、delta-rulestate-space-models 的思想融合进统一的序列建模框架。

架构演进

版本 代号 核心创新 复杂度类
RWKV-4 WKV 线性注意力 + token shift TC^0
RWKV-5 Eagle 多头矩阵值状态 TC^0
RWKV-6 Finch 动态衰减 + 数据依赖 TC^0
RWKV-7 Goose 广义 Delta 规则 + 向量门控 NC^1

核心设计理念

RWKV 始终坚持:

  • 线性复杂度:训练 O(n),推理 O(1) 内存
  • 全并行训练:不使用 BPTT通过 chunked parallel scan
  • 常数推理:无 KV cache单 token 推理成本恒定
  • 开源Apache 2.0,权重 + 代码 + 数据公开

WKV 时间混合

RWKV 的核心是 WKVWeighted Key Value算子可以视为受线性注意力启发的 RNN 循环:

w_t = softplus(W_w · x_t) 或更复杂的函数
k_t = W_k · x_t
v_t = W_v · x_t
状态 = 衰减(旧状态) + 新信息(k_t, v_t)

每个版本在"如何衰减、如何整合新信息"上有不同的数学形式。

相关概念

参考

  • RWKV-4 (Peng et al., 2023)
  • peng-rwkv7 (Peng et al., 2025)