SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.5 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

潜在得分 MDP (Latent-Score MDP)

2026-06-17

2026-06-17

concept

mdp

reinforcement-learning

operations-research

raw/papers/chen-bellman-taylor-score-2026.md

high

潜在得分 MDP (Latent-Score MDP)

潜在得分 MDP 是 bellman-taylor-score-decoding 框架通过 action-decoder 从原始 MDP 诱导出的等价决策问题——其动作空间是欧氏得分空间 R^d 而非原始约束动作集。

诱导过程

原始 MDP: M = (S, {A(s)}, P, r, γ) → 解码器 Γ(s,z) → M̃:

M̃ = (S, Z, P̃, r̃, γ)

其中:
- Z ⊆ R^d : 得分空间（无约束欧氏空间）
- r̃(s,z) = r(s, Γ(s,z)) : 诱导奖励
- P̃(s'|s,z) = P(s'|s, Γ(s,z)) : 诱导转移核

关键性质

标准化接口：动作空间是固定维度的连续空间，任何连续动作 DRL 都可用
可行性外置：解码器 Γ 精确保证可行性，DLR 策略无需处理约束
无需求导解码器：策略梯度 ∇log π(z|s) 不涉及解码器
近似最优性：M̃ 的最优策略近似原始 M 的最优策略（差距由 Taylor 余项控制）

与原始 MDP 的差距

并非原始 M 的所有策略都能在 M̃ 中表示——解码器诱导的策略类是受限的。但 Taylor 展开的局部性质保证这个局限在合理范围内。

参考