20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/papers/ticks-to-flows.md
+++ b/papers/ticks-to-flows.md
@@ -0,0 +1,73 @@
+---
+title: "From Ticks to Flows: Dynamics of Neural RL in Continuous Environments"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [reinforcement-learning, theory, continuous-control, stochastic-processes, actor-critic]
+sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
+confidence: high
+---
+
+# From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments
+
+> Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University, ICLR 2026
+> arXiv: [2606.04275](https://arxiv.org/abs/2606.04275)
+
+## 核心问题
+
+[[reinforcement-learning|强化学习]] 中神经网络的函数近似能力已被广泛验证，但**为什么深度 RL 能在连续控制中工作仍缺乏理论理解**。一个关键困难是：RL 的**数据分布随梯度更新而变化**——这与监督学习中静态数据分布形成根本区别。
+
+本文将深度 RL 建模为[[continuous-time-rl|连续时间随机过程]]，在[[two-time-scale-process|双时间尺度]]（环境时间 + 梯度时间）下分析学习动态。
+
+## 方法论
+
+### 探索动力学
+
+提出基于 [[stochastic-differential-equation|SDE]] 的探索模型：
+
+```
+ds_t = (g(s_t) + h(s_t) π(s_t)) dt + h(s_t) dw'_t + σ(s_t) dw_t
+```
+
+其中策略噪声 `dw'_t` 和环境噪声 `dw_t` 独立，避免传统加性噪声在确定性环境中探索消失的问题。
+
+### 双时间尺度公式化
+
+- **环境时间** (t)：agent 与环境交互的时间尺度（快）
+- **梯度时间** (τ)：参数更新的时间尺度（慢）
+- 状态随机变量 `s_{t,τ}` 在两个时钟上同时演化
+
+### 理论分析框架
+
+1. **[[linearized-neural-network|线性化 NN]]**：在 [[infinite-width-limit|无限宽度极限]] 下，使用 [[neural-tangent-kernel|NTK]] 线性化
+2. **[[ito-calculus|Itô-Taylor 展开]]**：将状态表示为 NN 参数的多项式
+3. **[[martingale-clt|鞅 CLT]]**：推导条件高斯极限
+
+## 主要结果（Theorem 6.1）
+
+在无限宽单隐层 NN 下，actor-critic 的梯度时间动态由一个**仅含 5 个时变变量的封闭系统**完全描述：
+
+```
+Δs_{t,τ}, Δa_{t,τ}, Δa'_{t,τ}, Δv_{t,τ}, Δv'_{t,τ}
+```
+
+这是**连续 RL 中首个**描述 NN 参数每一步梯度更新时状态分布变化的方程。
+
+## 实验验证
+
+- [[linear-quadratic-regulator|LQR]] 环境（ds=1,2,8,32）上验证 episodic continuous-time actor-critic 能学到接近最优策略
+- 探索动力学 > 加性 Wiener 噪声（更好的状态-动作覆盖）
+- 理论模型（Theorem 6.1）与经验算法高度一致
+
+## 局限与展望
+
+- 当前限于光滑动力学、单隐层、渐进宽度
+- 扩展到有限宽度、非光滑激活、高维动作空间是未来方向
+
+## 参考
+
+- [[continuous-time-rl|连续时间 RL]]
+- [[stochastic-differential-equation|SDE]]
+- [[reinforcement-learning|强化学习]]
+- [[neural-tangent-kernel|NTK]]
+- 来源：[原始存档](raw/papers/tiwari-ticks-to-flows-2026.md)