Files
myWiki/concepts/wkv-time-mixing.md

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
WKV Time Mixing 2026-06-18 2026-06-18 concept
rwkv
attention
linear-complexity
time-mixing
https://arxiv.org/abs/2503.14456

WKV Time Mixing

定义

WKVWeighted Key ValueTime Mixing 是 RWKV 架构的核心时间混合算子,可视为线性注意力的 RNN 变体。它负责将历史信息与当前 token 信息进行加权融合,是 RWKV 对标准注意力机制的 O(n²) → O(n) 替代。

核心形式

WKV 的一般模式:

w_t = f_w(x_t)        # 输入依赖的衰减权重
k_t = W_k · x_t       # Key 投影
v_t = W_v · x_t       # Value 投影
r_t = W_r · x_t       # Receptance门控
state_t = w_t ⊙ state_{t-1} + v_t^T · k_t
output = r_t ⊙ (W_o · state_t)

从 RWKV-4 到 RWKV-7 的演化

版本 WKV 形式 状态维度
RWKV-4 state_t = e^{-w} · state_{t-1} + e^{k_t} · v_t 向量
RWKV-5/6 S_t = S_{t-1} · diag(w_t) + v_t^T · k_t 矩阵
RWKV-7 S_t = S_{t-1} · (diag(w_t) - κ̂^T(a_t⊙κ̂)) + v_t^T·k_t 矩阵 + Delta

关键趋势WKV 从简单的指数衰减RWKV-4→ 逐通道动态衰减RWKV-5/6梯度下降式选择性更新RWKV-7

与注意力的关系

算子 机制 复杂度 状态
Softmax Attention Q-K^T 全对全交互 O(n²) KV cache 线性增长
WKV (RWKV) 循环式加权累积 O(n) 固定大小状态

WKV 可以理解为将注意力的"查询所有历史 token"压缩为"将历史压缩进状态再查询"。

相关概念

参考