Files
myWiki/concepts/exploratory-dynamics.md

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
探索动力学 (Exploratory Dynamics) 2026-06-17 2026-06-17 concept
reinforcement-learning
exploration
stochastic-processes
continuous-control
raw/papers/tiwari-ticks-to-flows-2026.md
high

探索动力学 (Exploratory Dynamics)

探索动力学是 ticks-to-flows 提出的连续时间 RL 中的新型探索模型——通过 stochastic-differential-equation 同时编码策略随机性和环境随机性。

核心 SDE

ds̃^π_t = (g(s̃_t) + h(s̃_t) π(s̃_t)) dt + h(s̃_t) dW'_t + σ(s̃_t) dW_t

区别传统加性噪声 π(s_t) + W_t

  • h(s_t) dW'_t策略噪声——噪声通过控制通道进入系统
  • σ(s_t) dW_t环境噪声——环境固有随机性

关键定理 (Lemma 3.1)

在 Lipschitz 条件下,以上 SDE 的解在分布上等价于一个更简洁的 SDE

ds̃^π_t = (g + h·π) dt + sqrt(h^2 + σ^2) dW_t

这意味着两种噪声源在路径分布上是不可分辨的,但在离散模拟中对状态-动作覆盖产生不同效果

与传统加性噪声的对比

属性 加性 Wiener 噪声 探索动力学
噪声结构 π(st) + W_t h(st) dW'_t + σ(st) dW_t
确定性环境 (σ=0) 无探索能力 仍有探索
状态-动作覆盖 平滑轨迹 随机跳跃
理论可处理性 需要 Lemma 3.1 简化

在证明中的作用

探索动力学是 Lemma 4.2(值函数 PDE和 Theorem 6.1(梯度时间状态变化)的基础——整个理论分析都在这一动力学模型上构建。

参考