Files
myWiki/concepts/queueing-network-control.md

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
排队网络控制 (Queueing Network Control) 2026-06-17 2026-06-17 concept
operations-research
queueing-theory
control
benchmark
raw/papers/chen-bellman-taylor-score-2026.md
high

排队网络控制 (Queueing Network Control)

动态多类别多服务池排队系统的调度是bellman-taylor-score-decoding 框架的主要验证场景——也是运筹学中经典的 MDP 基准。

问题设定

  • 多类别任务:不同类型的请求到达系统
  • 多服务池:多个服务器组,各有不同的处理能力
  • 状态依赖可行动作:调度决策受服务器可用性和队列约束
  • 目标:最小化等待时间或最大化吞吐量

为什么适合 BTSD

  1. 后动作配置自然存在:调度后的队列长度 = φ_s(a)
  2. 延续价值函数接近线性:一阶 Taylor 近似效果好
  3. 动作约束复杂:离散分配 + 容量约束,标准 DRL 接口不匹配

BTSD 在该场景的应用

  • 策略学到的是状态依赖的指数index
  • 解码器选择总得分最大的可行调度动作
  • 本质上学到了一个learned index-based dispatching rule
  • 不引入任何排队特化技术(如方差削减)

实验结果

  • 小规模实例接近最优策略
  • 大规模系统显著优于传统基准启发式
  • BTSD-PPO 框架直接可用,无需排队特化的架构设计

参考