2.8 KiB
2.8 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Bellman–Taylor Score Decoding for MDPs with State-Dependent Feasible Action Sets | 2026-06-17 | 2026-06-17 | paper |
|
|
high |
Bellman–Taylor 得分解码:为状态依赖可行动作集 MDP 连接标准 DRL
Yi Chen, Rushuai Yang, Qiang Chen, Dongyan (Lucy) Huo — HKUST, 2026 arXiv: 2606.10979
核心问题
运筹学中的 MDP 有状态依赖、隐式定义的可行动作集——由容量、兼容性和整数约束定义,不能简单枚举或嵌入欧氏空间。标准 DRL 假设固定的有限动作目录或连续欧氏空间,两者都不匹配。如何不改 DRL 算法而解决此接口不兼容?
方法论
Bellman-Taylor 得分解码
核心思路:标准化学习接口,而非操作动作空间。
- 对最优 Q 函数做 Taylor 展开:
Q*(s,a) ≈ ψ_s(a) + γ⟨∇G*_s(x_ref), φ_s(a)⟩ + const - 定义动作解码器
Γ(s,z) = argmax_{a∈A(s)} [ψ_s(a) + ⟨z, φ_s(a)⟩] - 策略学习得分向量 z ∈ R^d(无约束欧氏空间)
- 解码器在前向传播中将 z 映射为可行动作 a
潜在得分 MDP
通过解码器诱导出 M̃ = (S, Z, P̃, r̃, γ):
- 动作空间从 A(s) 变为 Z ⊆ R^d
r̃(s,z) = r(s, Γ(s,z))P̃(s'|s,z) = P(s'|s, Γ(s,z))
标准 PPO 可直接在 M̃ 上训练,无需对解码器求导。
性能保证
最优性差距分解为两项:
J(π*) - J(π_decode) ≤ ε_approx + ε_learn
ε_approx:Taylor 余项控制的结构近似误差ε_learn:标准 DRL 的算法学习误差
高阶推广
保留 Taylor 展开的高阶项 → 更丰富的解码器特征 → 更好地逼近非线性延续价值函数。
应用:排队网络控制
应用于多类别多服务池排队系统:
- 策略学到状态依赖的指数型调度规则
- 解码器按总得分最大原则选择可行的调度动作
- 不引入任何排队特化的方差削减技术
- 小规模实例接近最优,大规模系统显著优于基准
关键优势
| 特性 | 传统方案 | BTSD |
|---|---|---|
| 动作空间 | 需枚举/嵌入 | 欧氏得分空间 |
| 可行性 | 掩码/投影/修复 | 解码器精确保证 |
| 训练 | 需对优化层求导 | 前向解码,无需梯度 |
| 通用性 | 问题特化架构 | 同一框架适配 |