SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

状态依赖可行动作集 (State-Dependent Feasible Action Sets)

2026-06-17

2026-06-17

concept

mdp

operations-research

constraints

raw/papers/chen-bellman-taylor-score-2026.md

high

状态依赖可行动作集

这是运筹学 MDP 与标准 DRL 接口之间的核心不兼容点——可行动作不是固定的有限目录或简单的欧氏空间，而是由约束隐式定义并且依赖于当前状态。

形式化

A(s) = {a ∈ Ā : g_i(s,a) ≤ 0, h_j(s,a) = 0}

其中 Ā 是混合整数动作域，约束函数编码容量限制、平衡关系和兼容性条件。

为什么标准 DRL 不适用

DRL 类别	假设	不匹配的原因
Value-based (DQN)	固定有限动作目录	无法枚举，A(s) 随 s 变化
Policy-based (PPO)	固定欧氏空间	A(s) 是隐含约束的非凸集
Action masking	有限超集可枚举	超集增长过快，枚举不可行

典型场景

排队网络：服务分配受服务器可用性和队列长度约束
库存管理：补货决策受容量和预算约束
资源分配：离散资源在多需求间的耦合分配

解决思路

bellman-taylor-score-decoding 的解法不是修改 DRL 来适应 A(s)，而是将学习接口标准化：策略学习得分向量 z ∈ R^d，action-decoder 在 A(s) 上求解优化问题找到最优可行动作。

参考