20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/queueing-network-control.md
+++ b/concepts/queueing-network-control.md
@@ -0,0 +1,45 @@
+---
+title: "排队网络控制 (Queueing Network Control)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [operations-research, queueing-theory, control, benchmark]
+sources: [raw/papers/chen-bellman-taylor-score-2026.md]
+confidence: high
+---
+
+# 排队网络控制 (Queueing Network Control)
+
+动态多类别多服务池排队系统的调度是[[bellman-taylor-score-decoding|BTSD]] 框架的**主要验证场景**——也是运筹学中经典的 MDP 基准。
+
+## 问题设定
+
+- **多类别任务**：不同类型的请求到达系统
+- **多服务池**：多个服务器组，各有不同的处理能力
+- **状态依赖可行动作**：调度决策受服务器可用性和队列约束
+- **目标**：最小化等待时间或最大化吞吐量
+
+## 为什么适合 BTSD
+
+1. **后动作配置自然存在**：调度后的队列长度 = `φ_s(a)`
+2. **延续价值函数接近线性**：一阶 Taylor 近似效果好
+3. **动作约束复杂**：离散分配 + 容量约束，标准 DRL 接口不匹配
+
+## BTSD 在该场景的应用
+
+- 策略学到的是**状态依赖的指数（index）**
+- 解码器选择总得分最大的可行调度动作
+- 本质上学到了一个**learned index-based dispatching rule**
+- 不引入任何排队特化技术（如方差削减）
+
+## 实验结果
+
+- 小规模实例接近最优策略
+- 大规模系统显著优于传统基准启发式
+- BTSD-PPO 框架直接可用，无需排队特化的架构设计
+
+## 参考
+
+- [[bellman-taylor-score-decoding|BTSD]]
+- [[state-dependent-feasible-action-sets|状态依赖可行动作集]]
+- [[post-action-configuration|后动作配置]]