Files
myWiki/papers/bellman-taylor-score-decoding.md

80 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "BellmanTaylor Score Decoding for MDPs with State-Dependent Feasible Action Sets"
created: 2026-06-17
updated: 2026-06-17
type: paper
tags: [reinforcement-learning, operations-research, mdp, action-interface, queueing]
sources: [raw/papers/chen-bellman-taylor-score-2026.md]
confidence: high
---
# BellmanTaylor 得分解码:为状态依赖可行动作集 MDP 连接标准 DRL
> Yi Chen, Rushuai Yang, Qiang Chen, Dongyan (Lucy) Huo — HKUST, 2026
> arXiv: [2606.10979](https://arxiv.org/abs/2606.10979)
## 核心问题
运筹学中的 MDP 有**状态依赖、隐式定义的可行动作集**——由容量、兼容性和整数约束定义,不能简单枚举或嵌入欧氏空间。标准 DRL 假设固定的有限动作目录或连续欧氏空间,两者都不匹配。如何不改 DRL 算法而解决此接口不兼容?
## 方法论
### Bellman-Taylor 得分解码
核心思路:**标准化学习接口,而非操作动作空间**。
1. 对最优 Q 函数做 Taylor 展开:
```
Q*(s,a) ≈ ψ_s(a) + γ⟨∇G*_s(x_ref), φ_s(a)⟩ + const
```
2. 定义**动作解码器** `Γ(s,z) = argmax_{a∈A(s)} [ψ_s(a) + ⟨z, φ_s(a)⟩]`
3. 策略学习得分向量 z ∈ R^d无约束欧氏空间
4. 解码器在**前向传播**中将 z 映射为可行动作 a
### 潜在得分 MDP
通过解码器诱导出 `M̃ = (S, Z, P̃, r̃, γ)`
- 动作空间从 A(s) 变为 Z ⊆ R^d
- `r̃(s,z) = r(s, Γ(s,z))`
- `P̃(s'|s,z) = P(s'|s, Γ(s,z))`
标准 PPO 可直接在 M̃ 上训练,**无需对解码器求导**。
### 性能保证
最优性差距分解为两项:
```
J(π*) - J(π_decode) ≤ ε_approx + ε_learn
```
- `ε_approx`Taylor 余项控制的**结构近似误差**
- `ε_learn`:标准 DRL 的**算法学习误差**
### 高阶推广
保留 Taylor 展开的高阶项 → 更丰富的解码器特征 → 更好地逼近非线性延续价值函数。
## 应用:排队网络控制
应用于多类别多服务池排队系统:
- 策略学到**状态依赖的指数型调度规则**
- 解码器按总得分最大原则选择可行的调度动作
- 不引入任何排队特化的方差削减技术
- 小规模实例接近最优,大规模系统显著优于基准
## 关键优势
| 特性 | 传统方案 | BTSD |
|------|---------|------|
| 动作空间 | 需枚举/嵌入 | 欧氏得分空间 |
| 可行性 | 掩码/投影/修复 | 解码器精确保证 |
| 训练 | 需对优化层求导 | 前向解码,无需梯度 |
| 通用性 | 问题特化架构 | 同一框架适配 |
## 参考
- [[bellman-taylor-score-decoding|BTSD 框架]]
- [[latent-score-mdp|潜在得分 MDP]]
- [[state-dependent-feasible-action-sets|状态依赖可行动作集]]
- [[queueing-network-control|排队网络控制]]
- 来源:[原始存档](raw/papers/chen-bellman-taylor-score-2026.md)