1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 动作解码器 (Action Decoder) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
动作解码器 (Action Decoder)
动作解码器是 bellman-taylor-score-decoding 框架的核心组件——将无约束欧氏得分向量 z 映射为原始 MDP 中的可行动作 a,通过求解优化问题实现。
定义
Γ(s, z) ∈ argmax_{a∈A(s)} [ψ_s(a) + ⟨z, φ_s(a)⟩]
其中 φ_s(a) 是后动作配置表示,ψ_s(a) 是即时奖励,z 是策略学到的边际价值得分。
核心作用
- 可行性保证:输出始终在 A(s) 内,精确满足操作约束
- 学习-可行性分离:策略只负责输出 z,约束处理完全外置
- 无需梯度:解码器仅在 MDP 交互的前向传播中使用,策略梯度不涉及解码器的导数
- 结构感知:优化问题编码了运筹学领域的结构知识(线性/整数规划等)
与 differentiable optimization 的区别
| 维度 | Differentiable Opt | Action Decoder |
|---|---|---|
| 角色 | 可训练层 | 固定前向映射 |
| 梯度 | 需反向传播 | 不需求导 |
| 训练 | 端到端梯度 | 策略梯度(REINFORCE) |
| 组合动作 | 难以处理 | 可直接支持 |
计算代价
每次动作选择需要求解一个优化问题——这是 BTSD 相对于直接参数化策略的主要额外开销。但许多 OR 问题的优化问题高度结构化,可被高效求解。