Files
myWiki/concepts/continuous-time-rl.md

54 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "连续时间强化学习 (Continuous-Time RL)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [reinforcement-learning, theory, continuous-control, stochastic-processes]
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
confidence: high
---
# 连续时间强化学习 (Continuous-Time RL)
连续时间 RL 将强化学习建模为**连续时间随机过程**与传统的离散时间步ticks范式相对——正如标题 "From Ticks to Flows" 所暗示的。
## 动机
标准 RL 在离散时间步上操作agent 观察状态、采取动作、接收奖励、转移到下一状态。连续时间 RL 将这一切建模为在**连续时间域 `t ∈ [0, T)`** 上展开的随机过程。这之所以有用,是因为:
1. **数学工具丰富**:可以使用 [[stochastic-differential-equation|SDE]] 理论和 [[ito-calculus|Itô 微积分]] 进行精确分析
2. **自然建模**:许多物理系统本身是连续时间的
3. **理论桥梁**:将 RL 与随机控制和最优控制理论连接
## 控制仿射 MDP
[[ticks-to-flows|Tiwari et al. (2026)]] 在[[control-affine-mdp|控制仿射 MDP]] 中定义连续时间 RL
```
ds_t = (g(s_t) + h(s_t) a_t) dt + σ(s_t) dw_t
```
- `g(s)`自治动力学drift 函数)
- `h(s)`:动作对状态的线性影响
- `σ(s)`:环境噪声([[wiener-process|Wiener 过程]]驱动)
## 值函数
连续时间下的值函数为积分形式:
```
v^π(s, t) = E[∫_t^T e^{-β(l-t)} r(s_l^π) dl | s_t = s]
```
## 与前一个 TARPO 论文的关联
[[tarpo|TARPO]] 使用离散时间 RLGRPOTiwari et al. 的连续时间公式化提供了一个互补的理论视角——两者都致力于理解 RL 的学习动态,但一个从算法层面,一个从随机过程理论层面。
## 参考
- [[stochastic-differential-equation|SDE]]
- [[two-time-scale-process|双时间尺度过程]]
- [[wiener-process|维纳过程]]
- [[ticks-to-flows|Ticks to Flows]]
- [[reinforcement-learning|强化学习]]