1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 粗粒度循环 (Coarse-Grained Recurrence) | 2026-06-18 | 2026-06-18 | concept |
|
|
粗粒度循环 (Coarse-Grained Recurrence)
粗粒度循环是 Mozer et al. (2026) 提出的有前景方向之一:在比单个 token 更粗的粒度上引入循环,以降低 token 级循环的计算负担。
核心思想
逐 token 的状态更新(标准 RNN 方式)存在计算瓶颈——每个 token 都需要串行处理。粗粒度循环通过分组压缩在效率和状态追踪之间寻求平衡。
实现方式
块循环 (Block-Recurrent)
- Block-Recurrent Transformers(Hutchins et al., 2022):将固定长度 token 块并行处理,块间循环传递压缩记忆
- Chevalier et al. (2023):块级自回归训练
语言结构驱动分块
- Borazjanizadeh & McClelland (2025):以句子为单位的"思想"分块——将语言建模为离散思想序列
- 句子边界作为自然的循环步分界
优势
- 降低串行步数(token 级→句子级/块级)
- 保留状态传播连续性(块间循环)
- 更接近人类的概念级认知节奏