---
title: "From Ticks to Flows: Dynamics of Neural RL in Continuous Environments"
created: 2026-06-17
updated: 2026-06-17
type: paper
tags: [reinforcement-learning, theory, continuous-control, stochastic-processes, actor-critic]
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
confidence: high
---

# From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments

> Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University, ICLR 2026
> arXiv: [2606.04275](https://arxiv.org/abs/2606.04275)

## 核心问题

[[reinforcement-learning|强化学习]] 中神经网络的函数近似能力已被广泛验证，但**为什么深度 RL 能在连续控制中工作仍缺乏理论理解**。一个关键困难是：RL 的**数据分布随梯度更新而变化**——这与监督学习中静态数据分布形成根本区别。

本文将深度 RL 建模为[[continuous-time-rl|连续时间随机过程]]，在[[two-time-scale-process|双时间尺度]]（环境时间 + 梯度时间）下分析学习动态。

## 方法论

### 探索动力学

提出基于 [[stochastic-differential-equation|SDE]] 的探索模型：

```
ds_t = (g(s_t) + h(s_t) π(s_t)) dt + h(s_t) dw'_t + σ(s_t) dw_t
```

其中策略噪声 `dw'_t` 和环境噪声 `dw_t` 独立，避免传统加性噪声在确定性环境中探索消失的问题。

### 双时间尺度公式化

- **环境时间** (t)：agent 与环境交互的时间尺度（快）
- **梯度时间** (τ)：参数更新的时间尺度（慢）
- 状态随机变量 `s_{t,τ}` 在两个时钟上同时演化

### 理论分析框架

1. **[[linearized-neural-network|线性化 NN]]**：在 [[infinite-width-limit|无限宽度极限]] 下，使用 [[neural-tangent-kernel|NTK]] 线性化
2. **[[ito-calculus|Itô-Taylor 展开]]**：将状态表示为 NN 参数的多项式
3. **[[martingale-clt|鞅 CLT]]**：推导条件高斯极限

## 主要结果（Theorem 6.1）

在无限宽单隐层 NN 下，actor-critic 的梯度时间动态由一个**仅含 5 个时变变量的封闭系统**完全描述：

```
Δs_{t,τ}, Δa_{t,τ}, Δa'_{t,τ}, Δv_{t,τ}, Δv'_{t,τ}
```

这是**连续 RL 中首个**描述 NN 参数每一步梯度更新时状态分布变化的方程。

## 实验验证

- [[linear-quadratic-regulator|LQR]] 环境（ds=1,2,8,32）上验证 episodic continuous-time actor-critic 能学到接近最优策略
- 探索动力学 > 加性 Wiener 噪声（更好的状态-动作覆盖）
- 理论模型（Theorem 6.1）与经验算法高度一致

## 局限与展望

- 当前限于光滑动力学、单隐层、渐进宽度
- 扩展到有限宽度、非光滑激活、高维动作空间是未来方向

## 参考

- [[continuous-time-rl|连续时间 RL]]
- [[stochastic-differential-equation|SDE]]
- [[reinforcement-learning|强化学习]]
- [[neural-tangent-kernel|NTK]]
- 来源：[原始存档](raw/papers/tiwari-ticks-to-flows-2026.md)