1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 控制仿射 MDP (Control-Affine MDP) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
控制仿射 MDP (Control-Affine MDP)
控制仿射 MDP 是 ticks-to-flows 定义的连续时间、连续状态-动作空间的 MDP——其中动作对动力学的影响是**线性(仿射)**的,但环境和奖励可以是高度非线性的。
形式化定义
M = (S, A, ⟨g, h, σ⟩, r, s₀, β),其中:
ds_t = (g(s_t) + h(s_t) a_t) dt + σ(s_t) dW_t
g: R^{ds} → R^{ds}:自治动力学(不受控的 drift)h: R^{ds} → R^{ds×da}:控制仿射项(动作线性进入动力学)σ: R^{ds} → R^{ds×ds}:环境噪声(与动作无关)r: R^{ds} → R:光滑奖励函数- β ∈ (0,1):折扣因子
"控制仿射"的含义
动力学中动作 a_t 以线性方式出现(通过 h(s_t)a_t),但 g, h, σ, r 都可以是非线性光滑函数。这种结构:
- 比一般非线性控制更容易分析
- 涵盖了绝大多数物理控制问题
- 使得探索动力学分析更易处理
假设条件
- 光滑性:g, h, σ, r 无限可微
- Lipschitz 连续性:保证 SDE 解的存在唯一性
- 策略可允许性:策略需光滑 + Lipschitz(保证封闭系统 SDE 的适定性)
与离散 MDP 的对比
| 维度 | 标准 MDP | 控制仿射 MDP |
|---|---|---|
| 时间 | 离散 t=0,1,2... | 连续 t∈[0,T) |
| 转移 | P(s' | s,a) |
| 奖励 | r(s,a) | r(s) (状态依赖) |
| 控制结构 | 任意 | 仿射 (g + h·a) |