20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/two-time-scale-process.md
+++ b/concepts/two-time-scale-process.md
@@ -0,0 +1,54 @@
+---
+title: "双时间尺度过程 (Two Time-Scale Process)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [reinforcement-learning, theory, stochastic-processes]
+sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
+confidence: high
+---
+
+# 双时间尺度过程 (Two Time-Scale Process)
+
+双时间尺度过程是 [[ticks-to-flows|Ticks-to-Flows]] 论文的核心理论贡献——它将 RL 学习过程分解为在**两个独立时钟**上同时演化的随机过程。
+
+## 两个时钟
+
+```
+环境时间 (environment time) t:   0 ──────────────────────> T
+                                     [快钟，连续 SDE 动态]
+
+梯度时间 (gradient time) τ:     0 ──η──2η──3η──...──> Nη
+                                     [慢钟，参数更新]
+```
+
+- **环境时间 t**：agent 与环境交互，状态按 [[stochastic-differential-equation|SDE]] 演化。每个 episode 从 0 到 T，以 Δt 步长离散化
+- **梯度时间 τ**：NN 参数以学习率 η 更新。τ 的步长是 η，在无限宽极限下 `η = O(1/sqrt(n))`
+
+## 状态的双重依赖
+
+状态随机变量 `s_{t,τ}` 同时依赖两个时间尺度：
+
+```
+在环境时间上: ds_{t,τ} = (g + h·π) dt + σ̃ dW_t   (SDE 动态)
+在梯度时间上: s_{t,τ+η} = s_{t,τ} + Δs_{t,τ}       (参数更新带来状态变化)
+```
+
+## 关键洞察
+
+这是论文的标题来源 "From Ticks to Flows"：
+
+- **Ticks**：标准 RL 的离散时间步
+- **Flows**：连续时间 SDE 视角（环境时间）+ 连续梯度流（梯度时间）
+- 两个时间尺度上的"流"通过一个封闭系统（仅 5 个变量）连接
+
+## 与监督学习的区别
+
+在监督学习中，数据分布是静态的——梯度步骤只改变模型参数。在 RL 中，**梯度步骤同时改变数据分布**（通过改变策略），这正是需要双时间尺度分析的深层原因。
+
+## 参考
+
+- [[continuous-time-rl|连续时间 RL]]
+- [[ito-calculus|Itô 微积分]]
+- [[ticks-to-flows|Ticks to Flows]]
+- [[stochastic-differential-equation|SDE]]