44 lines
1.5 KiB
Markdown
44 lines
1.5 KiB
Markdown
---
|
||
title: "潜在得分 MDP (Latent-Score MDP)"
|
||
created: 2026-06-17
|
||
updated: 2026-06-17
|
||
type: concept
|
||
tags: [mdp, reinforcement-learning, operations-research]
|
||
sources: [raw/papers/chen-bellman-taylor-score-2026.md]
|
||
confidence: high
|
||
---
|
||
|
||
# 潜在得分 MDP (Latent-Score MDP)
|
||
|
||
潜在得分 MDP 是 [[bellman-taylor-score-decoding|BTSD]] 框架通过 [[action-decoder|动作解码器]] 从原始 MDP 诱导出的**等价决策问题**——其动作空间是欧氏得分空间 R^d 而非原始约束动作集。
|
||
|
||
## 诱导过程
|
||
|
||
原始 MDP: M = (S, {A(s)}, P, r, γ) → 解码器 Γ(s,z) → M̃:
|
||
|
||
```
|
||
M̃ = (S, Z, P̃, r̃, γ)
|
||
|
||
其中:
|
||
- Z ⊆ R^d : 得分空间(无约束欧氏空间)
|
||
- r̃(s,z) = r(s, Γ(s,z)) : 诱导奖励
|
||
- P̃(s'|s,z) = P(s'|s, Γ(s,z)) : 诱导转移核
|
||
```
|
||
|
||
## 关键性质
|
||
|
||
1. **标准化接口**:动作空间是固定维度的连续空间,任何连续动作 DRL 都可用
|
||
2. **可行性外置**:解码器 Γ 精确保证可行性,DLR 策略无需处理约束
|
||
3. **无需求导解码器**:策略梯度 `∇log π(z|s)` 不涉及解码器
|
||
4. **近似最优性**:M̃ 的最优策略近似原始 M 的最优策略(差距由 Taylor 余项控制)
|
||
|
||
## 与原始 MDP 的差距
|
||
|
||
并非原始 M 的所有策略都能在 M̃ 中表示——解码器诱导的策略类是受限的。但 Taylor 展开的局部性质保证这个局限在合理范围内。
|
||
|
||
## 参考
|
||
|
||
- [[bellman-taylor-score-decoding|BTSD]]
|
||
- [[action-decoder|动作解码器]]
|
||
- [[state-dependent-feasible-action-sets|状态依赖可行动作集]]
|