20260617:目前有914 页
This commit is contained in:
53
concepts/continuous-time-rl.md
Normal file
53
concepts/continuous-time-rl.md
Normal file
@@ -0,0 +1,53 @@
|
||||
---
|
||||
title: "连续时间强化学习 (Continuous-Time RL)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [reinforcement-learning, theory, continuous-control, stochastic-processes]
|
||||
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 连续时间强化学习 (Continuous-Time RL)
|
||||
|
||||
连续时间 RL 将强化学习建模为**连续时间随机过程**,与传统的离散时间步(ticks)范式相对——正如标题 "From Ticks to Flows" 所暗示的。
|
||||
|
||||
## 动机
|
||||
|
||||
标准 RL 在离散时间步上操作:agent 观察状态、采取动作、接收奖励、转移到下一状态。连续时间 RL 将这一切建模为在**连续时间域 `t ∈ [0, T)`** 上展开的随机过程。这之所以有用,是因为:
|
||||
|
||||
1. **数学工具丰富**:可以使用 [[stochastic-differential-equation|SDE]] 理论和 [[ito-calculus|Itô 微积分]] 进行精确分析
|
||||
2. **自然建模**:许多物理系统本身是连续时间的
|
||||
3. **理论桥梁**:将 RL 与随机控制和最优控制理论连接
|
||||
|
||||
## 控制仿射 MDP
|
||||
|
||||
[[ticks-to-flows|Tiwari et al. (2026)]] 在[[control-affine-mdp|控制仿射 MDP]] 中定义连续时间 RL:
|
||||
|
||||
```
|
||||
ds_t = (g(s_t) + h(s_t) a_t) dt + σ(s_t) dw_t
|
||||
```
|
||||
|
||||
- `g(s)`:自治动力学(drift 函数)
|
||||
- `h(s)`:动作对状态的线性影响
|
||||
- `σ(s)`:环境噪声([[wiener-process|Wiener 过程]]驱动)
|
||||
|
||||
## 值函数
|
||||
|
||||
连续时间下的值函数为积分形式:
|
||||
|
||||
```
|
||||
v^π(s, t) = E[∫_t^T e^{-β(l-t)} r(s_l^π) dl | s_t = s]
|
||||
```
|
||||
|
||||
## 与前一个 TARPO 论文的关联
|
||||
|
||||
[[tarpo|TARPO]] 使用离散时间 RL(GRPO),Tiwari et al. 的连续时间公式化提供了一个互补的理论视角——两者都致力于理解 RL 的学习动态,但一个从算法层面,一个从随机过程理论层面。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[stochastic-differential-equation|SDE]]
|
||||
- [[two-time-scale-process|双时间尺度过程]]
|
||||
- [[wiener-process|维纳过程]]
|
||||
- [[ticks-to-flows|Ticks to Flows]]
|
||||
- [[reinforcement-learning|强化学习]]
|
||||
Reference in New Issue
Block a user