20260617:目前有914 页
This commit is contained in:
54
concepts/exploratory-dynamics.md
Normal file
54
concepts/exploratory-dynamics.md
Normal file
@@ -0,0 +1,54 @@
|
||||
---
|
||||
title: "探索动力学 (Exploratory Dynamics)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [reinforcement-learning, exploration, stochastic-processes, continuous-control]
|
||||
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 探索动力学 (Exploratory Dynamics)
|
||||
|
||||
探索动力学是 [[ticks-to-flows|Tiwari et al. (2026)]] 提出的**连续时间 RL 中的新型探索模型**——通过 [[stochastic-differential-equation|SDE]] 同时编码策略随机性和环境随机性。
|
||||
|
||||
## 核心 SDE
|
||||
|
||||
```
|
||||
ds̃^π_t = (g(s̃_t) + h(s̃_t) π(s̃_t)) dt + h(s̃_t) dW'_t + σ(s̃_t) dW_t
|
||||
```
|
||||
|
||||
区别传统加性噪声 `π(s_t) + W_t`:
|
||||
|
||||
- `h(s_t) dW'_t`:**策略噪声**——噪声通过控制通道进入系统
|
||||
- `σ(s_t) dW_t`:**环境噪声**——环境固有随机性
|
||||
|
||||
## 关键定理 (Lemma 3.1)
|
||||
|
||||
在 Lipschitz 条件下,以上 SDE 的解在分布上**等价于**一个更简洁的 SDE:
|
||||
|
||||
```
|
||||
ds̃^π_t = (g + h·π) dt + sqrt(h^2 + σ^2) dW_t
|
||||
```
|
||||
|
||||
这意味着两种噪声源在路径分布上是不可分辨的,但**在离散模拟中对状态-动作覆盖产生不同效果**。
|
||||
|
||||
## 与传统加性噪声的对比
|
||||
|
||||
| 属性 | 加性 Wiener 噪声 | 探索动力学 |
|
||||
|------|------------------|-----------|
|
||||
| 噪声结构 | `π(st) + W_t` | `h(st) dW'_t + σ(st) dW_t` |
|
||||
| 确定性环境 (σ=0) | 无探索能力 | 仍有探索 |
|
||||
| 状态-动作覆盖 | 平滑轨迹 | 随机跳跃 |
|
||||
| 理论可处理性 | 高 | 需要 Lemma 3.1 简化 |
|
||||
|
||||
## 在证明中的作用
|
||||
|
||||
探索动力学是 Lemma 4.2(值函数 PDE)和 Theorem 6.1(梯度时间状态变化)的基础——整个理论分析都在这一动力学模型上构建。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[continuous-time-rl|连续时间 RL]]
|
||||
- [[stochastic-differential-equation|SDE]]
|
||||
- [[wiener-process|维纳过程]]
|
||||
- [[ticks-to-flows|Ticks to Flows]]
|
||||
Reference in New Issue
Block a user