20260617:目前有914 页
This commit is contained in:
45
concepts/queueing-network-control.md
Normal file
45
concepts/queueing-network-control.md
Normal file
@@ -0,0 +1,45 @@
|
||||
---
|
||||
title: "排队网络控制 (Queueing Network Control)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [operations-research, queueing-theory, control, benchmark]
|
||||
sources: [raw/papers/chen-bellman-taylor-score-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 排队网络控制 (Queueing Network Control)
|
||||
|
||||
动态多类别多服务池排队系统的调度是[[bellman-taylor-score-decoding|BTSD]] 框架的**主要验证场景**——也是运筹学中经典的 MDP 基准。
|
||||
|
||||
## 问题设定
|
||||
|
||||
- **多类别任务**:不同类型的请求到达系统
|
||||
- **多服务池**:多个服务器组,各有不同的处理能力
|
||||
- **状态依赖可行动作**:调度决策受服务器可用性和队列约束
|
||||
- **目标**:最小化等待时间或最大化吞吐量
|
||||
|
||||
## 为什么适合 BTSD
|
||||
|
||||
1. **后动作配置自然存在**:调度后的队列长度 = `φ_s(a)`
|
||||
2. **延续价值函数接近线性**:一阶 Taylor 近似效果好
|
||||
3. **动作约束复杂**:离散分配 + 容量约束,标准 DRL 接口不匹配
|
||||
|
||||
## BTSD 在该场景的应用
|
||||
|
||||
- 策略学到的是**状态依赖的指数(index)**
|
||||
- 解码器选择总得分最大的可行调度动作
|
||||
- 本质上学到了一个**learned index-based dispatching rule**
|
||||
- 不引入任何排队特化技术(如方差削减)
|
||||
|
||||
## 实验结果
|
||||
|
||||
- 小规模实例接近最优策略
|
||||
- 大规模系统显著优于传统基准启发式
|
||||
- BTSD-PPO 框架直接可用,无需排队特化的架构设计
|
||||
|
||||
## 参考
|
||||
|
||||
- [[bellman-taylor-score-decoding|BTSD]]
|
||||
- [[state-dependent-feasible-action-sets|状态依赖可行动作集]]
|
||||
- [[post-action-configuration|后动作配置]]
|
||||
Reference in New Issue
Block a user