Files
myWiki/concepts/state-dependent-feasible-action-sets.md

46 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "状态依赖可行动作集 (State-Dependent Feasible Action Sets)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [mdp, operations-research, constraints]
sources: [raw/papers/chen-bellman-taylor-score-2026.md]
confidence: high
---
# 状态依赖可行动作集
这是运筹学 MDP 与标准 DRL 接口之间的**核心不兼容点**——可行动作不是固定的有限目录或简单的欧氏空间,而是由约束隐式定义并且依赖于当前状态。
## 形式化
```
A(s) = {a ∈ Ā : g_i(s,a) ≤ 0, h_j(s,a) = 0}
```
其中 `Ā` 是混合整数动作域,约束函数编码容量限制、平衡关系和兼容性条件。
## 为什么标准 DRL 不适用
| DRL 类别 | 假设 | 不匹配的原因 |
|---------|------|------------|
| Value-based (DQN) | 固定有限动作目录 | 无法枚举A(s) 随 s 变化 |
| Policy-based (PPO) | 固定欧氏空间 | A(s) 是隐含约束的非凸集 |
| Action masking | 有限超集可枚举 | 超集增长过快,枚举不可行 |
## 典型场景
- **排队网络**:服务分配受服务器可用性和队列长度约束
- **库存管理**:补货决策受容量和预算约束
- **资源分配**:离散资源在多需求间的耦合分配
## 解决思路
[[bellman-taylor-score-decoding|BTSD]] 的解法不是修改 DRL 来适应 A(s),而是**将学习接口标准化**:策略学习得分向量 z ∈ R^d[[action-decoder|解码器]] 在 A(s) 上求解优化问题找到最优可行动作。
## 参考
- [[bellman-taylor-score-decoding|BTSD]]
- [[action-decoder|动作解码器]]
- [[latent-score-mdp|潜在得分 MDP]]