1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 状态依赖可行动作集 (State-Dependent Feasible Action Sets) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
状态依赖可行动作集
这是运筹学 MDP 与标准 DRL 接口之间的核心不兼容点——可行动作不是固定的有限目录或简单的欧氏空间,而是由约束隐式定义并且依赖于当前状态。
形式化
A(s) = {a ∈ Ā : g_i(s,a) ≤ 0, h_j(s,a) = 0}
其中 Ā 是混合整数动作域,约束函数编码容量限制、平衡关系和兼容性条件。
为什么标准 DRL 不适用
| DRL 类别 | 假设 | 不匹配的原因 |
|---|---|---|
| Value-based (DQN) | 固定有限动作目录 | 无法枚举,A(s) 随 s 变化 |
| Policy-based (PPO) | 固定欧氏空间 | A(s) 是隐含约束的非凸集 |
| Action masking | 有限超集可枚举 | 超集增长过快,枚举不可行 |
典型场景
- 排队网络:服务分配受服务器可用性和队列长度约束
- 库存管理:补货决策受容量和预算约束
- 资源分配:离散资源在多需求间的耦合分配
解决思路
bellman-taylor-score-decoding 的解法不是修改 DRL 来适应 A(s),而是将学习接口标准化:策略学习得分向量 z ∈ R^d,action-decoder 在 A(s) 上求解优化问题找到最优可行动作。