SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.0 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

连续时间强化学习 (Continuous-Time RL)

2026-06-17

2026-06-17

concept

reinforcement-learning

theory

continuous-control

stochastic-processes

raw/papers/tiwari-ticks-to-flows-2026.md

high

连续时间强化学习 (Continuous-Time RL)

连续时间 RL 将强化学习建模为连续时间随机过程，与传统的离散时间步（ticks）范式相对——正如标题 "From Ticks to Flows" 所暗示的。

动机

标准 RL 在离散时间步上操作：agent 观察状态、采取动作、接收奖励、转移到下一状态。连续时间 RL 将这一切建模为在连续时间域 t ∈ [0, T) 上展开的随机过程。这之所以有用，是因为：

数学工具丰富：可以使用 stochastic-differential-equation 理论和 ito-calculus 进行精确分析
自然建模：许多物理系统本身是连续时间的
理论桥梁：将 RL 与随机控制和最优控制理论连接

控制仿射 MDP

ticks-to-flows 在control-affine-mdp 中定义连续时间 RL：

ds_t = (g(s_t) + h(s_t) a_t) dt + σ(s_t) dw_t

g(s)：自治动力学（drift 函数）
h(s)：动作对状态的线性影响
σ(s)：环境噪声（wiener-process驱动）

值函数

连续时间下的值函数为积分形式：

v^π(s, t) = E[∫_t^T e^{-β(l-t)} r(s_l^π) dl | s_t = s]

与前一个 TARPO 论文的关联

tarpo 使用离散时间 RL（GRPO），Tiwari et al. 的连续时间公式化提供了一个互补的理论视角——两者都致力于理解 RL 的学习动态，但一个从算法层面，一个从随机过程理论层面。

参考