20260625:很多新内容
This commit is contained in:
52
concepts/dynamic-state-evolution.md
Normal file
52
concepts/dynamic-state-evolution.md
Normal file
@@ -0,0 +1,52 @@
|
||||
---
|
||||
title: "Dynamic State Evolution"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: concept
|
||||
tags: ["rwkv", "state-tracking", "recurrence", "sequence-modeling"]
|
||||
sources: ["https://arxiv.org/abs/2503.14456"]
|
||||
---
|
||||
|
||||
# Dynamic State Evolution
|
||||
|
||||
## 定义
|
||||
|
||||
Dynamic State Evolution(动态状态演化)是 RWKV-7 对序列模型中隐状态更新机制的重新表述。在传统 RNN(LSTM/GRU)和 LTI SSM(S4)中,状态演化规则是固定的;RWKV-7 通过 [[generalized-delta-rule]] 使状态演化变为**输入依赖 + 向量值 + 可学习**的三维动态过程。
|
||||
|
||||
## 核心组成
|
||||
|
||||
```
|
||||
S_t = S_{t-1} · (diag(w_t) - κ̂^T (a_t ⊙ κ̂)) + v_t^T · k_t
|
||||
↑ ↑
|
||||
状态衰减(门控) 新信息写入(Delta)
|
||||
```
|
||||
|
||||
三部分协同:
|
||||
|
||||
1. **动态衰减**(`diag(w_t)`):逐通道、输入依赖的遗忘 → [[vector-valued-gating]]
|
||||
2. **选择性移除**(`κ̂^T (a_t ⊙ κ̂)`):基于内容匹配的旧信息擦除 → [[in-context-learning-rate]]
|
||||
3. **新信息写入**(`v_t^T · k_t`):通过外积将新 (k, v) 对写入状态 → [[delta-rule]]
|
||||
|
||||
## 表达力来源
|
||||
|
||||
传统 RNN 的状态演化局限于标量门控 → 表达能力受限于 TC^0。
|
||||
|
||||
RWKV-7 的动态状态演化实现了三个突破:
|
||||
- **向量值门控** → 逐通道差异化更新
|
||||
- **广义特征值** → 进化矩阵可拥有 [0,1] 外的特征值
|
||||
- **Delta 规则** → 梯度下降式的联想记忆写入
|
||||
|
||||
这些共同使 RWKV-7 首次实现了超越 TC^0 的并行化 RNN 表达力 → 达到 NC^1。
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[generalized-delta-rule]] — 动态状态演化的完整数学形式
|
||||
- [[vector-valued-gating]] — 演化的衰减部分
|
||||
- [[in-context-learning-rate]] — 演化的更新速度控制
|
||||
- [[regular-language-recognition]] — 动态演化的理论成果
|
||||
- [[state-tracking]] — 演化支持的核心能力
|
||||
- [[peng-rwkv7|RWKV-7 论文]]
|
||||
|
||||
## 参考
|
||||
|
||||
- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025)
|
||||
Reference in New Issue
Block a user