1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 探索动力学 (Exploratory Dynamics) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
探索动力学 (Exploratory Dynamics)
探索动力学是 ticks-to-flows 提出的连续时间 RL 中的新型探索模型——通过 stochastic-differential-equation 同时编码策略随机性和环境随机性。
核心 SDE
ds̃^π_t = (g(s̃_t) + h(s̃_t) π(s̃_t)) dt + h(s̃_t) dW'_t + σ(s̃_t) dW_t
区别传统加性噪声 π(s_t) + W_t:
h(s_t) dW'_t:策略噪声——噪声通过控制通道进入系统σ(s_t) dW_t:环境噪声——环境固有随机性
关键定理 (Lemma 3.1)
在 Lipschitz 条件下,以上 SDE 的解在分布上等价于一个更简洁的 SDE:
ds̃^π_t = (g + h·π) dt + sqrt(h^2 + σ^2) dW_t
这意味着两种噪声源在路径分布上是不可分辨的,但在离散模拟中对状态-动作覆盖产生不同效果。
与传统加性噪声的对比
| 属性 | 加性 Wiener 噪声 | 探索动力学 |
|---|---|---|
| 噪声结构 | π(st) + W_t |
h(st) dW'_t + σ(st) dW_t |
| 确定性环境 (σ=0) | 无探索能力 | 仍有探索 |
| 状态-动作覆盖 | 平滑轨迹 | 随机跳跃 |
| 理论可处理性 | 高 | 需要 Lemma 3.1 简化 |
在证明中的作用
探索动力学是 Lemma 4.2(值函数 PDE)和 Theorem 6.1(梯度时间状态变化)的基础——整个理论分析都在这一动力学模型上构建。