53 lines
1.9 KiB
Markdown
53 lines
1.9 KiB
Markdown
---
|
||
title: "Regular Language Recognition"
|
||
created: 2026-06-18
|
||
updated: 2026-06-18
|
||
type: concept
|
||
tags: ["theory", "expressiveness", "automata", "rwkv"]
|
||
sources: ["https://arxiv.org/abs/2503.14456"]
|
||
---
|
||
|
||
# Regular Language Recognition
|
||
|
||
## 定义
|
||
|
||
Regular Language Recognition(正则语言识别)在 RWKV-7 的语境中指:架构是否具备识别**所有**正则语言的理论能力。这是形式语言理论中表达力的重要基准——正则语言对应有限状态自动机(DFA)的识别能力。
|
||
|
||
## 复杂度类背景
|
||
|
||
```
|
||
TC^0 ⊂ NC^1 ⊆ L ⊆ P
|
||
```
|
||
|
||
- **TC^0**:常数深度、多项式宽度的阈值电路——标准 Transformer 在此类
|
||
- **NC^1**:对数深度电路——正则语言识别需要此类
|
||
|
||
在 TC^0 ≠ NC^1 的标准猜想下,Transformer 理论上无法识别**所有**正则语言(如某些需要 DFA 的 parity 类语言)。
|
||
|
||
## RWKV-7 的理论突破
|
||
|
||
RWKV-7 的论文(Appendix D)证明了两个关键结果:
|
||
|
||
1. **单层可解决 S5 状态追踪**(一个已知在 NC^1 \ TC^0 的问题,在 TC^0 ≠ NC^1 猜想下)
|
||
2. **常数层可识别任意正则语言**
|
||
|
||
这是**首个**被证明超越 TC^0 的并行化可训练 RNN 架构。
|
||
|
||
## 为什么重要
|
||
|
||
- **架构选择有理论依据**:不是"试试看哪个工作",而是"这个架构能做什么"
|
||
- **状态追踪的完整支持**:解释了为什么 RWKV-7 在需要维护隐藏状态的合成任务上表现优异
|
||
- **Transformer 的上界是真实的**:非注意力架构不仅效率更高,理论上也更强大
|
||
|
||
## 相关概念
|
||
|
||
- [[dynamic-state-evolution]] — 超越 TC^0 的实现机制
|
||
- [[generalized-delta-rule]] — 提供额外表达力的核心组件
|
||
- [[state-tracking]] — 正则语言识别的应用体现
|
||
- [[peng-rwkv7|RWKV-7 论文]]
|
||
|
||
## 参考
|
||
|
||
- Merrill & Sabharwal (2023) — Transformer 的 TC^0 上界
|
||
- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025) — Appendix D
|