Files
myWiki/concepts/depth-recurrence.md

1.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
深度循环 (Depth Recurrence) 2026-06-18 2026-06-18 concept
transformers
recurrence
depth
inference-time-scaling
mozer-topological-trouble-transformers-2026

深度循环 (Depth Recurrence)

深度循环是recurrence-taxonomy中沿层深度轴的循环模式:激活从深层回流浅层,形成循环 Transformer 块Mozer et al., 2026

典型形式

对应 Mozer et al. 图 5b 的展开模式:

  • Looped TransformerGiannou et al., 2023; Dehghani et al., 2019单个/多个层被重复执行
  • RINSAlabdulmohsin & Zhai, 2025自适应深度循环
  • 推理时扩展Inference-time scalingYang et al. (2024a), Chen et al. (2025b), Geiping et al. (2025) 等

关键局限

虽然深度循环增强了表达能力Saunshi et al., 2025不能实现无限状态追踪

因为 s(t+1) 必须位于比 s(t) 更高的层——无论循环多少深度,状态表示仍然在垂直方向上移。

应用场景

  • 推理时计算扩展test-time compute scaling
  • 微调适配:预训练模型 + 深度循环微调Koishekenov et al., 2025
  • 零训练循环纯推理时方法提升推理Li et al., 2025b; Chen et al., 2026

参考