20260617:目前有914 页
This commit is contained in:
73
papers/ticks-to-flows.md
Normal file
73
papers/ticks-to-flows.md
Normal file
@@ -0,0 +1,73 @@
|
||||
---
|
||||
title: "From Ticks to Flows: Dynamics of Neural RL in Continuous Environments"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: paper
|
||||
tags: [reinforcement-learning, theory, continuous-control, stochastic-processes, actor-critic]
|
||||
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments
|
||||
|
||||
> Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University, ICLR 2026
|
||||
> arXiv: [2606.04275](https://arxiv.org/abs/2606.04275)
|
||||
|
||||
## 核心问题
|
||||
|
||||
[[reinforcement-learning|强化学习]] 中神经网络的函数近似能力已被广泛验证,但**为什么深度 RL 能在连续控制中工作仍缺乏理论理解**。一个关键困难是:RL 的**数据分布随梯度更新而变化**——这与监督学习中静态数据分布形成根本区别。
|
||||
|
||||
本文将深度 RL 建模为[[continuous-time-rl|连续时间随机过程]],在[[two-time-scale-process|双时间尺度]](环境时间 + 梯度时间)下分析学习动态。
|
||||
|
||||
## 方法论
|
||||
|
||||
### 探索动力学
|
||||
|
||||
提出基于 [[stochastic-differential-equation|SDE]] 的探索模型:
|
||||
|
||||
```
|
||||
ds_t = (g(s_t) + h(s_t) π(s_t)) dt + h(s_t) dw'_t + σ(s_t) dw_t
|
||||
```
|
||||
|
||||
其中策略噪声 `dw'_t` 和环境噪声 `dw_t` 独立,避免传统加性噪声在确定性环境中探索消失的问题。
|
||||
|
||||
### 双时间尺度公式化
|
||||
|
||||
- **环境时间** (t):agent 与环境交互的时间尺度(快)
|
||||
- **梯度时间** (τ):参数更新的时间尺度(慢)
|
||||
- 状态随机变量 `s_{t,τ}` 在两个时钟上同时演化
|
||||
|
||||
### 理论分析框架
|
||||
|
||||
1. **[[linearized-neural-network|线性化 NN]]**:在 [[infinite-width-limit|无限宽度极限]] 下,使用 [[neural-tangent-kernel|NTK]] 线性化
|
||||
2. **[[ito-calculus|Itô-Taylor 展开]]**:将状态表示为 NN 参数的多项式
|
||||
3. **[[martingale-clt|鞅 CLT]]**:推导条件高斯极限
|
||||
|
||||
## 主要结果(Theorem 6.1)
|
||||
|
||||
在无限宽单隐层 NN 下,actor-critic 的梯度时间动态由一个**仅含 5 个时变变量的封闭系统**完全描述:
|
||||
|
||||
```
|
||||
Δs_{t,τ}, Δa_{t,τ}, Δa'_{t,τ}, Δv_{t,τ}, Δv'_{t,τ}
|
||||
```
|
||||
|
||||
这是**连续 RL 中首个**描述 NN 参数每一步梯度更新时状态分布变化的方程。
|
||||
|
||||
## 实验验证
|
||||
|
||||
- [[linear-quadratic-regulator|LQR]] 环境(ds=1,2,8,32)上验证 episodic continuous-time actor-critic 能学到接近最优策略
|
||||
- 探索动力学 > 加性 Wiener 噪声(更好的状态-动作覆盖)
|
||||
- 理论模型(Theorem 6.1)与经验算法高度一致
|
||||
|
||||
## 局限与展望
|
||||
|
||||
- 当前限于光滑动力学、单隐层、渐进宽度
|
||||
- 扩展到有限宽度、非光滑激活、高维动作空间是未来方向
|
||||
|
||||
## 参考
|
||||
|
||||
- [[continuous-time-rl|连续时间 RL]]
|
||||
- [[stochastic-differential-equation|SDE]]
|
||||
- [[reinforcement-learning|强化学习]]
|
||||
- [[neural-tangent-kernel|NTK]]
|
||||
- 来源:[原始存档](raw/papers/tiwari-ticks-to-flows-2026.md)
|
||||
Reference in New Issue
Block a user