SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.8 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

Bellman–Taylor Score Decoding for MDPs with State-Dependent Feasible Action Sets

2026-06-17

2026-06-17

paper

reinforcement-learning

operations-research

mdp

action-interface

queueing

raw/papers/chen-bellman-taylor-score-2026.md

high

Bellman–Taylor 得分解码：为状态依赖可行动作集 MDP 连接标准 DRL

Yi Chen, Rushuai Yang, Qiang Chen, Dongyan (Lucy) Huo — HKUST, 2026 arXiv: 2606.10979

核心问题

运筹学中的 MDP 有状态依赖、隐式定义的可行动作集——由容量、兼容性和整数约束定义，不能简单枚举或嵌入欧氏空间。标准 DRL 假设固定的有限动作目录或连续欧氏空间，两者都不匹配。如何不改 DRL 算法而解决此接口不兼容？

方法论

Bellman-Taylor 得分解码

核心思路：标准化学习接口，而非操作动作空间。

对最优 Q 函数做 Taylor 展开：

Q*(s,a) ≈ ψ_s(a) + γ⟨∇G*_s(x_ref), φ_s(a)⟩ + const

定义动作解码器 Γ(s,z) = argmax_{a∈A(s)} [ψ_s(a) + ⟨z, φ_s(a)⟩]
策略学习得分向量 z ∈ R^d（无约束欧氏空间）
解码器在前向传播中将 z 映射为可行动作 a

潜在得分 MDP

通过解码器诱导出 M̃ = (S, Z, P̃, r̃, γ)：

动作空间从 A(s) 变为 Z ⊆ R^d
r̃(s,z) = r(s, Γ(s,z))
P̃(s'|s,z) = P(s'|s, Γ(s,z))

标准 PPO 可直接在 M̃ 上训练，无需对解码器求导。

性能保证

最优性差距分解为两项：

J(π*) - J(π_decode) ≤ ε_approx + ε_learn

ε_approx：Taylor 余项控制的结构近似误差
ε_learn：标准 DRL 的算法学习误差

高阶推广

保留 Taylor 展开的高阶项 → 更丰富的解码器特征 → 更好地逼近非线性延续价值函数。

应用：排队网络控制

应用于多类别多服务池排队系统：

策略学到状态依赖的指数型调度规则
解码器按总得分最大原则选择可行的调度动作
不引入任何排队特化的方差削减技术
小规模实例接近最优，大规模系统显著优于基准

关键优势

特性	传统方案	BTSD
动作空间	需枚举/嵌入	欧氏得分空间
可行性	掩码/投影/修复	解码器精确保证
训练	需对优化层求导	前向解码，无需梯度
通用性	问题特化架构	同一框架适配

参考