SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

排队网络控制 (Queueing Network Control)

2026-06-17

2026-06-17

concept

operations-research

queueing-theory

control

benchmark

raw/papers/chen-bellman-taylor-score-2026.md

high

排队网络控制 (Queueing Network Control)

动态多类别多服务池排队系统的调度是bellman-taylor-score-decoding 框架的主要验证场景——也是运筹学中经典的 MDP 基准。

问题设定

多类别任务：不同类型的请求到达系统
多服务池：多个服务器组，各有不同的处理能力
状态依赖可行动作：调度决策受服务器可用性和队列约束
目标：最小化等待时间或最大化吞吐量

为什么适合 BTSD

后动作配置自然存在：调度后的队列长度 = φ_s(a)
延续价值函数接近线性：一阶 Taylor 近似效果好
动作约束复杂：离散分配 + 容量约束，标准 DRL 接口不匹配

BTSD 在该场景的应用

策略学到的是状态依赖的指数（index）
解码器选择总得分最大的可行调度动作
本质上学到了一个learned index-based dispatching rule
不引入任何排队特化技术（如方差削减）

实验结果

小规模实例接近最优策略
大规模系统显著优于传统基准启发式
BTSD-PPO 框架直接可用，无需排队特化的架构设计

参考