--- title: "From Ticks to Flows: Dynamics of Neural RL in Continuous Environments" created: 2026-06-17 updated: 2026-06-17 type: paper tags: [reinforcement-learning, theory, continuous-control, stochastic-processes, actor-critic] sources: [raw/papers/tiwari-ticks-to-flows-2026.md] confidence: high --- # From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments > Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University, ICLR 2026 > arXiv: [2606.04275](https://arxiv.org/abs/2606.04275) ## 核心问题 [[reinforcement-learning|强化学习]] 中神经网络的函数近似能力已被广泛验证,但**为什么深度 RL 能在连续控制中工作仍缺乏理论理解**。一个关键困难是:RL 的**数据分布随梯度更新而变化**——这与监督学习中静态数据分布形成根本区别。 本文将深度 RL 建模为[[continuous-time-rl|连续时间随机过程]],在[[two-time-scale-process|双时间尺度]](环境时间 + 梯度时间)下分析学习动态。 ## 方法论 ### 探索动力学 提出基于 [[stochastic-differential-equation|SDE]] 的探索模型: ``` ds_t = (g(s_t) + h(s_t) π(s_t)) dt + h(s_t) dw'_t + σ(s_t) dw_t ``` 其中策略噪声 `dw'_t` 和环境噪声 `dw_t` 独立,避免传统加性噪声在确定性环境中探索消失的问题。 ### 双时间尺度公式化 - **环境时间** (t):agent 与环境交互的时间尺度(快) - **梯度时间** (τ):参数更新的时间尺度(慢) - 状态随机变量 `s_{t,τ}` 在两个时钟上同时演化 ### 理论分析框架 1. **[[linearized-neural-network|线性化 NN]]**:在 [[infinite-width-limit|无限宽度极限]] 下,使用 [[neural-tangent-kernel|NTK]] 线性化 2. **[[ito-calculus|Itô-Taylor 展开]]**:将状态表示为 NN 参数的多项式 3. **[[martingale-clt|鞅 CLT]]**:推导条件高斯极限 ## 主要结果(Theorem 6.1) 在无限宽单隐层 NN 下,actor-critic 的梯度时间动态由一个**仅含 5 个时变变量的封闭系统**完全描述: ``` Δs_{t,τ}, Δa_{t,τ}, Δa'_{t,τ}, Δv_{t,τ}, Δv'_{t,τ} ``` 这是**连续 RL 中首个**描述 NN 参数每一步梯度更新时状态分布变化的方程。 ## 实验验证 - [[linear-quadratic-regulator|LQR]] 环境(ds=1,2,8,32)上验证 episodic continuous-time actor-critic 能学到接近最优策略 - 探索动力学 > 加性 Wiener 噪声(更好的状态-动作覆盖) - 理论模型(Theorem 6.1)与经验算法高度一致 ## 局限与展望 - 当前限于光滑动力学、单隐层、渐进宽度 - 扩展到有限宽度、非光滑激活、高维动作空间是未来方向 ## 参考 - [[continuous-time-rl|连续时间 RL]] - [[stochastic-differential-equation|SDE]] - [[reinforcement-learning|强化学习]] - [[neural-tangent-kernel|NTK]] - 来源:[原始存档](raw/papers/tiwari-ticks-to-flows-2026.md)