Files
myWiki/concepts/action-decoder.md

48 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "动作解码器 (Action Decoder)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [reinforcement-learning, mdp, optimization, operations-research]
sources: [raw/papers/chen-bellman-taylor-score-2026.md]
confidence: high
---
# 动作解码器 (Action Decoder)
动作解码器是 [[bellman-taylor-score-decoding|BTSD]] 框架的核心组件——将**无约束欧氏得分向量 z 映射为原始 MDP 中的可行动作 a**,通过求解优化问题实现。
## 定义
```
Γ(s, z) ∈ argmax_{a∈A(s)} [ψ_s(a) + ⟨z, φ_s(a)⟩]
```
其中 `φ_s(a)` 是后动作配置表示,`ψ_s(a)` 是即时奖励z 是策略学到的边际价值得分。
## 核心作用
1. **可行性保证**:输出始终在 A(s) 内,精确满足操作约束
2. **学习-可行性分离**:策略只负责输出 z约束处理完全外置
3. **无需梯度**:解码器仅在 MDP 交互的前向传播中使用,策略梯度不涉及解码器的导数
4. **结构感知**:优化问题编码了运筹学领域的结构知识(线性/整数规划等)
## 与 differentiable optimization 的区别
| 维度 | Differentiable Opt | Action Decoder |
|------|-------------------|----------------|
| 角色 | 可训练层 | 固定前向映射 |
| 梯度 | 需反向传播 | 不需求导 |
| 训练 | 端到端梯度 | 策略梯度REINFORCE |
| 组合动作 | 难以处理 | 可直接支持 |
## 计算代价
每次动作选择需要求解一个优化问题——这是 BTSD 相对于直接参数化策略的主要额外开销。但许多 OR 问题的优化问题高度结构化,可被高效求解。
## 参考
- [[bellman-taylor-score-decoding|BTSD]]
- [[latent-score-mdp|潜在得分 MDP]]
- [[state-dependent-feasible-action-sets|状态依赖可行动作集]]