2.9 KiB
2.9 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| From Ticks to Flows: Dynamics of Neural RL in Continuous Environments | 2026-06-17 | 2026-06-17 | paper |
|
|
high |
From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments
Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University, ICLR 2026 arXiv: 2606.04275
核心问题
reinforcement-learning 中神经网络的函数近似能力已被广泛验证,但为什么深度 RL 能在连续控制中工作仍缺乏理论理解。一个关键困难是:RL 的数据分布随梯度更新而变化——这与监督学习中静态数据分布形成根本区别。
本文将深度 RL 建模为continuous-time-rl,在two-time-scale-process(环境时间 + 梯度时间)下分析学习动态。
方法论
探索动力学
提出基于 stochastic-differential-equation 的探索模型:
ds_t = (g(s_t) + h(s_t) π(s_t)) dt + h(s_t) dw'_t + σ(s_t) dw_t
其中策略噪声 dw'_t 和环境噪声 dw_t 独立,避免传统加性噪声在确定性环境中探索消失的问题。
双时间尺度公式化
- 环境时间 (t):agent 与环境交互的时间尺度(快)
- 梯度时间 (τ):参数更新的时间尺度(慢)
- 状态随机变量
s_{t,τ}在两个时钟上同时演化
理论分析框架
- linearized-neural-network:在 infinite-width-limit 下,使用 neural-tangent-kernel 线性化
- ito-calculus:将状态表示为 NN 参数的多项式
- martingale-clt:推导条件高斯极限
主要结果(Theorem 6.1)
在无限宽单隐层 NN 下,actor-critic 的梯度时间动态由一个仅含 5 个时变变量的封闭系统完全描述:
Δs_{t,τ}, Δa_{t,τ}, Δa'_{t,τ}, Δv_{t,τ}, Δv'_{t,τ}
这是连续 RL 中首个描述 NN 参数每一步梯度更新时状态分布变化的方程。
实验验证
- linear-quadratic-regulator 环境(ds=1,2,8,32)上验证 episodic continuous-time actor-critic 能学到接近最优策略
- 探索动力学 > 加性 Wiener 噪声(更好的状态-动作覆盖)
- 理论模型(Theorem 6.1)与经验算法高度一致
局限与展望
- 当前限于光滑动力学、单隐层、渐进宽度
- 扩展到有限宽度、非光滑激活、高维动作空间是未来方向