Files
myWiki/papers/ticks-to-flows.md

74 lines
2.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "From Ticks to Flows: Dynamics of Neural RL in Continuous Environments"
created: 2026-06-17
updated: 2026-06-17
type: paper
tags: [reinforcement-learning, theory, continuous-control, stochastic-processes, actor-critic]
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
confidence: high
---
# From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments
> Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University, ICLR 2026
> arXiv: [2606.04275](https://arxiv.org/abs/2606.04275)
## 核心问题
[[reinforcement-learning|强化学习]] 中神经网络的函数近似能力已被广泛验证,但**为什么深度 RL 能在连续控制中工作仍缺乏理论理解**。一个关键困难是RL 的**数据分布随梯度更新而变化**——这与监督学习中静态数据分布形成根本区别。
本文将深度 RL 建模为[[continuous-time-rl|连续时间随机过程]],在[[two-time-scale-process|双时间尺度]](环境时间 + 梯度时间)下分析学习动态。
## 方法论
### 探索动力学
提出基于 [[stochastic-differential-equation|SDE]] 的探索模型:
```
ds_t = (g(s_t) + h(s_t) π(s_t)) dt + h(s_t) dw'_t + σ(s_t) dw_t
```
其中策略噪声 `dw'_t` 和环境噪声 `dw_t` 独立,避免传统加性噪声在确定性环境中探索消失的问题。
### 双时间尺度公式化
- **环境时间** (t)agent 与环境交互的时间尺度(快)
- **梯度时间** (τ):参数更新的时间尺度(慢)
- 状态随机变量 `s_{t,τ}` 在两个时钟上同时演化
### 理论分析框架
1. **[[linearized-neural-network|线性化 NN]]**:在 [[infinite-width-limit|无限宽度极限]] 下,使用 [[neural-tangent-kernel|NTK]] 线性化
2. **[[ito-calculus|Itô-Taylor 展开]]**:将状态表示为 NN 参数的多项式
3. **[[martingale-clt|鞅 CLT]]**:推导条件高斯极限
## 主要结果Theorem 6.1
在无限宽单隐层 NN 下actor-critic 的梯度时间动态由一个**仅含 5 个时变变量的封闭系统**完全描述:
```
Δs_{t,τ}, Δa_{t,τ}, Δa'_{t,τ}, Δv_{t,τ}, Δv'_{t,τ}
```
这是**连续 RL 中首个**描述 NN 参数每一步梯度更新时状态分布变化的方程。
## 实验验证
- [[linear-quadratic-regulator|LQR]] 环境ds=1,2,8,32上验证 episodic continuous-time actor-critic 能学到接近最优策略
- 探索动力学 > 加性 Wiener 噪声(更好的状态-动作覆盖)
- 理论模型Theorem 6.1)与经验算法高度一致
## 局限与展望
- 当前限于光滑动力学、单隐层、渐进宽度
- 扩展到有限宽度、非光滑激活、高维动作空间是未来方向
## 参考
- [[continuous-time-rl|连续时间 RL]]
- [[stochastic-differential-equation|SDE]]
- [[reinforcement-learning|强化学习]]
- [[neural-tangent-kernel|NTK]]
- 来源:[原始存档](raw/papers/tiwari-ticks-to-flows-2026.md)