Files
myWiki/papers/ticks-to-flows.md

2.9 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
From Ticks to Flows: Dynamics of Neural RL in Continuous Environments 2026-06-17 2026-06-17 paper
reinforcement-learning
theory
continuous-control
stochastic-processes
actor-critic
raw/papers/tiwari-ticks-to-flows-2026.md
high

From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments

Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University, ICLR 2026 arXiv: 2606.04275

核心问题

reinforcement-learning 中神经网络的函数近似能力已被广泛验证,但为什么深度 RL 能在连续控制中工作仍缺乏理论理解。一个关键困难是RL 的数据分布随梯度更新而变化——这与监督学习中静态数据分布形成根本区别。

本文将深度 RL 建模为continuous-time-rl,在two-time-scale-process(环境时间 + 梯度时间)下分析学习动态。

方法论

探索动力学

提出基于 stochastic-differential-equation 的探索模型:

ds_t = (g(s_t) + h(s_t) π(s_t)) dt + h(s_t) dw'_t + σ(s_t) dw_t

其中策略噪声 dw'_t 和环境噪声 dw_t 独立,避免传统加性噪声在确定性环境中探索消失的问题。

双时间尺度公式化

  • 环境时间 (t)agent 与环境交互的时间尺度(快)
  • 梯度时间 (τ):参数更新的时间尺度(慢)
  • 状态随机变量 s_{t,τ} 在两个时钟上同时演化

理论分析框架

  1. linearized-neural-network:在 infinite-width-limit 下,使用 neural-tangent-kernel 线性化
  2. ito-calculus:将状态表示为 NN 参数的多项式
  3. martingale-clt:推导条件高斯极限

主要结果Theorem 6.1

在无限宽单隐层 NN 下actor-critic 的梯度时间动态由一个仅含 5 个时变变量的封闭系统完全描述:

Δs_{t,τ}, Δa_{t,τ}, Δa'_{t,τ}, Δv_{t,τ}, Δv'_{t,τ}

这是连续 RL 中首个描述 NN 参数每一步梯度更新时状态分布变化的方程。

实验验证

  • linear-quadratic-regulator 环境ds=1,2,8,32上验证 episodic continuous-time actor-critic 能学到接近最优策略
  • 探索动力学 > 加性 Wiener 噪声(更好的状态-动作覆盖)
  • 理论模型Theorem 6.1)与经验算法高度一致

局限与展望

  • 当前限于光滑动力学、单隐层、渐进宽度
  • 扩展到有限宽度、非光滑激活、高维动作空间是未来方向

参考