探索动力学 (Exploratory Dynamics)

探索动力学是 ticks-to-flows 提出的连续时间 RL 中的新型探索模型——通过 stochastic-differential-equation 同时编码策略随机性和环境随机性。

核心 SDE

ds̃^π_t = (g(s̃_t) + h(s̃_t) π(s̃_t)) dt + h(s̃_t) dW'_t + σ(s̃_t) dW_t

区别传统加性噪声 π(s_t) + W_t：

在 Lipschitz 条件下，以上 SDE 的解在分布上等价于一个更简洁的 SDE：

ds̃^π_t = (g + h·π) dt + sqrt(h^2 + σ^2) dW_t

这意味着两种噪声源在路径分布上是不可分辨的，但在离散模拟中对状态-动作覆盖产生不同效果。

探索动力学是 Lemma 4.2（值函数 PDE）和 Theorem 6.1（梯度时间状态变化）的基础——整个理论分析都在这一动力学模型上构建。