Files
myWiki/concepts/latent-score-mdp.md

44 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "潜在得分 MDP (Latent-Score MDP)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [mdp, reinforcement-learning, operations-research]
sources: [raw/papers/chen-bellman-taylor-score-2026.md]
confidence: high
---
# 潜在得分 MDP (Latent-Score MDP)
潜在得分 MDP 是 [[bellman-taylor-score-decoding|BTSD]] 框架通过 [[action-decoder|动作解码器]] 从原始 MDP 诱导出的**等价决策问题**——其动作空间是欧氏得分空间 R^d 而非原始约束动作集。
## 诱导过程
原始 MDP: M = (S, {A(s)}, P, r, γ) → 解码器 Γ(s,z) → M̃:
```
M̃ = (S, Z, P̃, r̃, γ)
其中:
- Z ⊆ R^d : 得分空间(无约束欧氏空间)
- r̃(s,z) = r(s, Γ(s,z)) : 诱导奖励
- P̃(s'|s,z) = P(s'|s, Γ(s,z)) : 诱导转移核
```
## 关键性质
1. **标准化接口**:动作空间是固定维度的连续空间,任何连续动作 DRL 都可用
2. **可行性外置**:解码器 Γ 精确保证可行性DLR 策略无需处理约束
3. **无需求导解码器**:策略梯度 `∇log π(z|s)` 不涉及解码器
4. **近似最优性**M̃ 的最优策略近似原始 M 的最优策略(差距由 Taylor 余项控制)
## 与原始 MDP 的差距
并非原始 M 的所有策略都能在 M̃ 中表示——解码器诱导的策略类是受限的。但 Taylor 展开的局部性质保证这个局限在合理范围内。
## 参考
- [[bellman-taylor-score-decoding|BTSD]]
- [[action-decoder|动作解码器]]
- [[state-dependent-feasible-action-sets|状态依赖可行动作集]]