20260617:目前有914 页
This commit is contained in:
45
concepts/state-dependent-feasible-action-sets.md
Normal file
45
concepts/state-dependent-feasible-action-sets.md
Normal file
@@ -0,0 +1,45 @@
|
||||
---
|
||||
title: "状态依赖可行动作集 (State-Dependent Feasible Action Sets)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [mdp, operations-research, constraints]
|
||||
sources: [raw/papers/chen-bellman-taylor-score-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 状态依赖可行动作集
|
||||
|
||||
这是运筹学 MDP 与标准 DRL 接口之间的**核心不兼容点**——可行动作不是固定的有限目录或简单的欧氏空间,而是由约束隐式定义并且依赖于当前状态。
|
||||
|
||||
## 形式化
|
||||
|
||||
```
|
||||
A(s) = {a ∈ Ā : g_i(s,a) ≤ 0, h_j(s,a) = 0}
|
||||
```
|
||||
|
||||
其中 `Ā` 是混合整数动作域,约束函数编码容量限制、平衡关系和兼容性条件。
|
||||
|
||||
## 为什么标准 DRL 不适用
|
||||
|
||||
| DRL 类别 | 假设 | 不匹配的原因 |
|
||||
|---------|------|------------|
|
||||
| Value-based (DQN) | 固定有限动作目录 | 无法枚举,A(s) 随 s 变化 |
|
||||
| Policy-based (PPO) | 固定欧氏空间 | A(s) 是隐含约束的非凸集 |
|
||||
| Action masking | 有限超集可枚举 | 超集增长过快,枚举不可行 |
|
||||
|
||||
## 典型场景
|
||||
|
||||
- **排队网络**:服务分配受服务器可用性和队列长度约束
|
||||
- **库存管理**:补货决策受容量和预算约束
|
||||
- **资源分配**:离散资源在多需求间的耦合分配
|
||||
|
||||
## 解决思路
|
||||
|
||||
[[bellman-taylor-score-decoding|BTSD]] 的解法不是修改 DRL 来适应 A(s),而是**将学习接口标准化**:策略学习得分向量 z ∈ R^d,[[action-decoder|解码器]] 在 A(s) 上求解优化问题找到最优可行动作。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[bellman-taylor-score-decoding|BTSD]]
|
||||
- [[action-decoder|动作解码器]]
|
||||
- [[latent-score-mdp|潜在得分 MDP]]
|
||||
Reference in New Issue
Block a user