Files
myWiki/concepts/exploratory-dynamics.md

55 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "探索动力学 (Exploratory Dynamics)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [reinforcement-learning, exploration, stochastic-processes, continuous-control]
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
confidence: high
---
# 探索动力学 (Exploratory Dynamics)
探索动力学是 [[ticks-to-flows|Tiwari et al. (2026)]] 提出的**连续时间 RL 中的新型探索模型**——通过 [[stochastic-differential-equation|SDE]] 同时编码策略随机性和环境随机性。
## 核心 SDE
```
ds̃^π_t = (g(s̃_t) + h(s̃_t) π(s̃_t)) dt + h(s̃_t) dW'_t + σ(s̃_t) dW_t
```
区别传统加性噪声 `π(s_t) + W_t`
- `h(s_t) dW'_t`**策略噪声**——噪声通过控制通道进入系统
- `σ(s_t) dW_t`**环境噪声**——环境固有随机性
## 关键定理 (Lemma 3.1)
在 Lipschitz 条件下,以上 SDE 的解在分布上**等价于**一个更简洁的 SDE
```
ds̃^π_t = (g + h·π) dt + sqrt(h^2 + σ^2) dW_t
```
这意味着两种噪声源在路径分布上是不可分辨的,但**在离散模拟中对状态-动作覆盖产生不同效果**。
## 与传统加性噪声的对比
| 属性 | 加性 Wiener 噪声 | 探索动力学 |
|------|------------------|-----------|
| 噪声结构 | `π(st) + W_t` | `h(st) dW'_t + σ(st) dW_t` |
| 确定性环境 (σ=0) | 无探索能力 | 仍有探索 |
| 状态-动作覆盖 | 平滑轨迹 | 随机跳跃 |
| 理论可处理性 | 高 | 需要 Lemma 3.1 简化 |
## 在证明中的作用
探索动力学是 Lemma 4.2(值函数 PDE和 Theorem 6.1(梯度时间状态变化)的基础——整个理论分析都在这一动力学模型上构建。
## 参考
- [[continuous-time-rl|连续时间 RL]]
- [[stochastic-differential-equation|SDE]]
- [[wiener-process|维纳过程]]
- [[ticks-to-flows|Ticks to Flows]]