1.5 KiB
1.5 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 潜在得分 MDP (Latent-Score MDP) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
潜在得分 MDP (Latent-Score MDP)
潜在得分 MDP 是 bellman-taylor-score-decoding 框架通过 action-decoder 从原始 MDP 诱导出的等价决策问题——其动作空间是欧氏得分空间 R^d 而非原始约束动作集。
诱导过程
原始 MDP: M = (S, {A(s)}, P, r, γ) → 解码器 Γ(s,z) → M̃:
M̃ = (S, Z, P̃, r̃, γ)
其中:
- Z ⊆ R^d : 得分空间(无约束欧氏空间)
- r̃(s,z) = r(s, Γ(s,z)) : 诱导奖励
- P̃(s'|s,z) = P(s'|s, Γ(s,z)) : 诱导转移核
关键性质
- 标准化接口:动作空间是固定维度的连续空间,任何连续动作 DRL 都可用
- 可行性外置:解码器 Γ 精确保证可行性,DLR 策略无需处理约束
- 无需求导解码器:策略梯度
∇log π(z|s)不涉及解码器 - 近似最优性:M̃ 的最优策略近似原始 M 的最优策略(差距由 Taylor 余项控制)
与原始 MDP 的差距
并非原始 M 的所有策略都能在 M̃ 中表示——解码器诱导的策略类是受限的。但 Taylor 展开的局部性质保证这个局限在合理范围内。