20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

73
papers/ticks-to-flows.md Normal file
View File

@@ -0,0 +1,73 @@
---
title: "From Ticks to Flows: Dynamics of Neural RL in Continuous Environments"
created: 2026-06-17
updated: 2026-06-17
type: paper
tags: [reinforcement-learning, theory, continuous-control, stochastic-processes, actor-critic]
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
confidence: high
---
# From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments
> Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University, ICLR 2026
> arXiv: [2606.04275](https://arxiv.org/abs/2606.04275)
## 核心问题
[[reinforcement-learning|强化学习]] 中神经网络的函数近似能力已被广泛验证,但**为什么深度 RL 能在连续控制中工作仍缺乏理论理解**。一个关键困难是RL 的**数据分布随梯度更新而变化**——这与监督学习中静态数据分布形成根本区别。
本文将深度 RL 建模为[[continuous-time-rl|连续时间随机过程]],在[[two-time-scale-process|双时间尺度]](环境时间 + 梯度时间)下分析学习动态。
## 方法论
### 探索动力学
提出基于 [[stochastic-differential-equation|SDE]] 的探索模型:
```
ds_t = (g(s_t) + h(s_t) π(s_t)) dt + h(s_t) dw'_t + σ(s_t) dw_t
```
其中策略噪声 `dw'_t` 和环境噪声 `dw_t` 独立,避免传统加性噪声在确定性环境中探索消失的问题。
### 双时间尺度公式化
- **环境时间** (t)agent 与环境交互的时间尺度(快)
- **梯度时间** (τ):参数更新的时间尺度(慢)
- 状态随机变量 `s_{t,τ}` 在两个时钟上同时演化
### 理论分析框架
1. **[[linearized-neural-network|线性化 NN]]**:在 [[infinite-width-limit|无限宽度极限]] 下,使用 [[neural-tangent-kernel|NTK]] 线性化
2. **[[ito-calculus|Itô-Taylor 展开]]**:将状态表示为 NN 参数的多项式
3. **[[martingale-clt|鞅 CLT]]**:推导条件高斯极限
## 主要结果Theorem 6.1
在无限宽单隐层 NN 下actor-critic 的梯度时间动态由一个**仅含 5 个时变变量的封闭系统**完全描述:
```
Δs_{t,τ}, Δa_{t,τ}, Δa'_{t,τ}, Δv_{t,τ}, Δv'_{t,τ}
```
这是**连续 RL 中首个**描述 NN 参数每一步梯度更新时状态分布变化的方程。
## 实验验证
- [[linear-quadratic-regulator|LQR]] 环境ds=1,2,8,32上验证 episodic continuous-time actor-critic 能学到接近最优策略
- 探索动力学 > 加性 Wiener 噪声(更好的状态-动作覆盖)
- 理论模型Theorem 6.1)与经验算法高度一致
## 局限与展望
- 当前限于光滑动力学、单隐层、渐进宽度
- 扩展到有限宽度、非光滑激活、高维动作空间是未来方向
## 参考
- [[continuous-time-rl|连续时间 RL]]
- [[stochastic-differential-equation|SDE]]
- [[reinforcement-learning|强化学习]]
- [[neural-tangent-kernel|NTK]]
- 来源:[原始存档](raw/papers/tiwari-ticks-to-flows-2026.md)