20260617:目前有914 页
This commit is contained in:
47
concepts/action-decoder.md
Normal file
47
concepts/action-decoder.md
Normal file
@@ -0,0 +1,47 @@
|
||||
---
|
||||
title: "动作解码器 (Action Decoder)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [reinforcement-learning, mdp, optimization, operations-research]
|
||||
sources: [raw/papers/chen-bellman-taylor-score-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 动作解码器 (Action Decoder)
|
||||
|
||||
动作解码器是 [[bellman-taylor-score-decoding|BTSD]] 框架的核心组件——将**无约束欧氏得分向量 z 映射为原始 MDP 中的可行动作 a**,通过求解优化问题实现。
|
||||
|
||||
## 定义
|
||||
|
||||
```
|
||||
Γ(s, z) ∈ argmax_{a∈A(s)} [ψ_s(a) + ⟨z, φ_s(a)⟩]
|
||||
```
|
||||
|
||||
其中 `φ_s(a)` 是后动作配置表示,`ψ_s(a)` 是即时奖励,z 是策略学到的边际价值得分。
|
||||
|
||||
## 核心作用
|
||||
|
||||
1. **可行性保证**:输出始终在 A(s) 内,精确满足操作约束
|
||||
2. **学习-可行性分离**:策略只负责输出 z,约束处理完全外置
|
||||
3. **无需梯度**:解码器仅在 MDP 交互的前向传播中使用,策略梯度不涉及解码器的导数
|
||||
4. **结构感知**:优化问题编码了运筹学领域的结构知识(线性/整数规划等)
|
||||
|
||||
## 与 differentiable optimization 的区别
|
||||
|
||||
| 维度 | Differentiable Opt | Action Decoder |
|
||||
|------|-------------------|----------------|
|
||||
| 角色 | 可训练层 | 固定前向映射 |
|
||||
| 梯度 | 需反向传播 | 不需求导 |
|
||||
| 训练 | 端到端梯度 | 策略梯度(REINFORCE) |
|
||||
| 组合动作 | 难以处理 | 可直接支持 |
|
||||
|
||||
## 计算代价
|
||||
|
||||
每次动作选择需要求解一个优化问题——这是 BTSD 相对于直接参数化策略的主要额外开销。但许多 OR 问题的优化问题高度结构化,可被高效求解。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[bellman-taylor-score-decoding|BTSD]]
|
||||
- [[latent-score-mdp|潜在得分 MDP]]
|
||||
- [[state-dependent-feasible-action-sets|状态依赖可行动作集]]
|
||||
Reference in New Issue
Block a user