Files
myWiki/concepts/two-time-scale-process.md

55 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "双时间尺度过程 (Two Time-Scale Process)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [reinforcement-learning, theory, stochastic-processes]
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
confidence: high
---
# 双时间尺度过程 (Two Time-Scale Process)
双时间尺度过程是 [[ticks-to-flows|Ticks-to-Flows]] 论文的核心理论贡献——它将 RL 学习过程分解为在**两个独立时钟**上同时演化的随机过程。
## 两个时钟
```
环境时间 (environment time) t: 0 ──────────────────────> T
[快钟,连续 SDE 动态]
梯度时间 (gradient time) τ: 0 ──η──2η──3η──...──> Nη
[慢钟,参数更新]
```
- **环境时间 t**agent 与环境交互,状态按 [[stochastic-differential-equation|SDE]] 演化。每个 episode 从 0 到 T以 Δt 步长离散化
- **梯度时间 τ**NN 参数以学习率 η 更新。τ 的步长是 η,在无限宽极限下 `η = O(1/sqrt(n))`
## 状态的双重依赖
状态随机变量 `s_{t,τ}` 同时依赖两个时间尺度:
```
在环境时间上: ds_{t,τ} = (g + h·π) dt + σ̃ dW_t (SDE 动态)
在梯度时间上: s_{t,τ+η} = s_{t,τ} + Δs_{t,τ} (参数更新带来状态变化)
```
## 关键洞察
这是论文的标题来源 "From Ticks to Flows"
- **Ticks**:标准 RL 的离散时间步
- **Flows**:连续时间 SDE 视角(环境时间)+ 连续梯度流(梯度时间)
- 两个时间尺度上的"流"通过一个封闭系统(仅 5 个变量)连接
## 与监督学习的区别
在监督学习中,数据分布是静态的——梯度步骤只改变模型参数。在 RL 中,**梯度步骤同时改变数据分布**(通过改变策略),这正是需要双时间尺度分析的深层原因。
## 参考
- [[continuous-time-rl|连续时间 RL]]
- [[ito-calculus|Itô 微积分]]
- [[ticks-to-flows|Ticks to Flows]]
- [[stochastic-differential-equation|SDE]]