Files
myWiki/concepts/queueing-network-control.md

46 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "排队网络控制 (Queueing Network Control)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [operations-research, queueing-theory, control, benchmark]
sources: [raw/papers/chen-bellman-taylor-score-2026.md]
confidence: high
---
# 排队网络控制 (Queueing Network Control)
动态多类别多服务池排队系统的调度是[[bellman-taylor-score-decoding|BTSD]] 框架的**主要验证场景**——也是运筹学中经典的 MDP 基准。
## 问题设定
- **多类别任务**:不同类型的请求到达系统
- **多服务池**:多个服务器组,各有不同的处理能力
- **状态依赖可行动作**:调度决策受服务器可用性和队列约束
- **目标**:最小化等待时间或最大化吞吐量
## 为什么适合 BTSD
1. **后动作配置自然存在**:调度后的队列长度 = `φ_s(a)`
2. **延续价值函数接近线性**:一阶 Taylor 近似效果好
3. **动作约束复杂**:离散分配 + 容量约束,标准 DRL 接口不匹配
## BTSD 在该场景的应用
- 策略学到的是**状态依赖的指数index**
- 解码器选择总得分最大的可行调度动作
- 本质上学到了一个**learned index-based dispatching rule**
- 不引入任何排队特化技术(如方差削减)
## 实验结果
- 小规模实例接近最优策略
- 大规模系统显著优于传统基准启发式
- BTSD-PPO 框架直接可用,无需排队特化的架构设计
## 参考
- [[bellman-taylor-score-decoding|BTSD]]
- [[state-dependent-feasible-action-sets|状态依赖可行动作集]]
- [[post-action-configuration|后动作配置]]