20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/papers/bellman-taylor-score-decoding.md
+++ b/papers/bellman-taylor-score-decoding.md
@@ -0,0 +1,79 @@
+---
+title: "Bellman–Taylor Score Decoding for MDPs with State-Dependent Feasible Action Sets"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [reinforcement-learning, operations-research, mdp, action-interface, queueing]
+sources: [raw/papers/chen-bellman-taylor-score-2026.md]
+confidence: high
+---
+
+# Bellman–Taylor 得分解码：为状态依赖可行动作集 MDP 连接标准 DRL
+
+> Yi Chen, Rushuai Yang, Qiang Chen, Dongyan (Lucy) Huo — HKUST, 2026
+> arXiv: [2606.10979](https://arxiv.org/abs/2606.10979)
+
+## 核心问题
+
+运筹学中的 MDP 有**状态依赖、隐式定义的可行动作集**——由容量、兼容性和整数约束定义，不能简单枚举或嵌入欧氏空间。标准 DRL 假设固定的有限动作目录或连续欧氏空间，两者都不匹配。如何不改 DRL 算法而解决此接口不兼容？
+
+## 方法论
+
+### Bellman-Taylor 得分解码
+
+核心思路：**标准化学习接口，而非操作动作空间**。
+
+1. 对最优 Q 函数做 Taylor 展开：
+   ```
+   Q*(s,a) ≈ ψ_s(a) + γ⟨∇G*_s(x_ref), φ_s(a)⟩ + const
+   ```
+2. 定义**动作解码器** `Γ(s,z) = argmax_{a∈A(s)} [ψ_s(a) + ⟨z, φ_s(a)⟩]`
+3. 策略学习得分向量 z ∈ R^d（无约束欧氏空间）
+4. 解码器在**前向传播**中将 z 映射为可行动作 a
+
+### 潜在得分 MDP
+
+通过解码器诱导出 `M̃ = (S, Z, P̃, r̃, γ)`：
+- 动作空间从 A(s) 变为 Z ⊆ R^d
+- `r̃(s,z) = r(s, Γ(s,z))`
+- `P̃(s'|s,z) = P(s'|s, Γ(s,z))`
+
+标准 PPO 可直接在 M̃ 上训练，**无需对解码器求导**。
+
+### 性能保证
+
+最优性差距分解为两项：
+```
+J(π*) - J(π_decode) ≤ ε_approx + ε_learn
+```
+- `ε_approx`：Taylor 余项控制的**结构近似误差**
+- `ε_learn`：标准 DRL 的**算法学习误差**
+
+### 高阶推广
+
+保留 Taylor 展开的高阶项 → 更丰富的解码器特征 → 更好地逼近非线性延续价值函数。
+
+## 应用：排队网络控制
+
+应用于多类别多服务池排队系统：
+- 策略学到**状态依赖的指数型调度规则**
+- 解码器按总得分最大原则选择可行的调度动作
+- 不引入任何排队特化的方差削减技术
+- 小规模实例接近最优，大规模系统显著优于基准
+
+## 关键优势
+
+| 特性 | 传统方案 | BTSD |
+|------|---------|------|
+| 动作空间 | 需枚举/嵌入 | 欧氏得分空间 |
+| 可行性 | 掩码/投影/修复 | 解码器精确保证 |
+| 训练 | 需对优化层求导 | 前向解码，无需梯度 |
+| 通用性 | 问题特化架构 | 同一框架适配 |
+
+## 参考
+
+- [[bellman-taylor-score-decoding|BTSD 框架]]
+- [[latent-score-mdp|潜在得分 MDP]]
+- [[state-dependent-feasible-action-sets|状态依赖可行动作集]]
+- [[queueing-network-control|排队网络控制]]
+- 来源：[原始存档](raw/papers/chen-bellman-taylor-score-2026.md)