2.0 KiB
2.0 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 双时间尺度过程 (Two Time-Scale Process) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
双时间尺度过程 (Two Time-Scale Process)
双时间尺度过程是 ticks-to-flows 论文的核心理论贡献——它将 RL 学习过程分解为在两个独立时钟上同时演化的随机过程。
两个时钟
环境时间 (environment time) t: 0 ──────────────────────> T
[快钟,连续 SDE 动态]
梯度时间 (gradient time) τ: 0 ──η──2η──3η──...──> Nη
[慢钟,参数更新]
- 环境时间 t:agent 与环境交互,状态按 stochastic-differential-equation 演化。每个 episode 从 0 到 T,以 Δt 步长离散化
- 梯度时间 τ:NN 参数以学习率 η 更新。τ 的步长是 η,在无限宽极限下
η = O(1/sqrt(n))
状态的双重依赖
状态随机变量 s_{t,τ} 同时依赖两个时间尺度:
在环境时间上: ds_{t,τ} = (g + h·π) dt + σ̃ dW_t (SDE 动态)
在梯度时间上: s_{t,τ+η} = s_{t,τ} + Δs_{t,τ} (参数更新带来状态变化)
关键洞察
这是论文的标题来源 "From Ticks to Flows":
- Ticks:标准 RL 的离散时间步
- Flows:连续时间 SDE 视角(环境时间)+ 连续梯度流(梯度时间)
- 两个时间尺度上的"流"通过一个封闭系统(仅 5 个变量)连接
与监督学习的区别
在监督学习中,数据分布是静态的——梯度步骤只改变模型参数。在 RL 中,梯度步骤同时改变数据分布(通过改变策略),这正是需要双时间尺度分析的深层原因。