From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments

Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University, ICLR 2026 arXiv: 2606.04275

核心问题

reinforcement-learning 中神经网络的函数近似能力已被广泛验证，但为什么深度 RL 能在连续控制中工作仍缺乏理论理解。一个关键困难是：RL 的数据分布随梯度更新而变化——这与监督学习中静态数据分布形成根本区别。

本文将深度 RL 建模为continuous-time-rl，在two-time-scale-process（环境时间 + 梯度时间）下分析学习动态。

ds_t = (g(s_t) + h(s_t) π(s_t)) dt + h(s_t) dw'_t + σ(s_t) dw_t

其中策略噪声 dw'_t 和环境噪声 dw_t 独立，避免传统加性噪声在确定性环境中探索消失的问题。

linearized-neural-network：在 infinite-width-limit 下，使用 neural-tangent-kernel 线性化
ito-calculus：将状态表示为 NN 参数的多项式
martingale-clt：推导条件高斯极限

在无限宽单隐层 NN 下，actor-critic 的梯度时间动态由一个仅含 5 个时变变量的封闭系统完全描述：

Δs_{t,τ}, Δa_{t,τ}, Δa'_{t,τ}, Δv_{t,τ}, Δv'_{t,τ}

这是连续 RL 中首个描述 NN 参数每一步梯度更新时状态分布变化的方程。

linear-quadratic-regulator 环境（ds=1,2,8,32）上验证 episodic continuous-time actor-critic 能学到接近最优策略
探索动力学 > 加性 Wiener 噪声（更好的状态-动作覆盖）
理论模型（Theorem 6.1）与经验算法高度一致