SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.8 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

动作解码器 (Action Decoder)

2026-06-17

2026-06-17

concept

reinforcement-learning

mdp

optimization

operations-research

raw/papers/chen-bellman-taylor-score-2026.md

high

动作解码器 (Action Decoder)

动作解码器是 bellman-taylor-score-decoding 框架的核心组件——将无约束欧氏得分向量 z 映射为原始 MDP 中的可行动作 a，通过求解优化问题实现。

定义

Γ(s, z) ∈ argmax_{a∈A(s)} [ψ_s(a) + ⟨z, φ_s(a)⟩]

其中 φ_s(a) 是后动作配置表示，ψ_s(a) 是即时奖励，z 是策略学到的边际价值得分。

核心作用

可行性保证：输出始终在 A(s) 内，精确满足操作约束
学习-可行性分离：策略只负责输出 z，约束处理完全外置
无需梯度：解码器仅在 MDP 交互的前向传播中使用，策略梯度不涉及解码器的导数
结构感知：优化问题编码了运筹学领域的结构知识（线性/整数规划等）

与 differentiable optimization 的区别

维度	Differentiable Opt	Action Decoder
角色	可训练层	固定前向映射
梯度	需反向传播	不需求导
训练	端到端梯度	策略梯度（REINFORCE）
组合动作	难以处理	可直接支持

计算代价

每次动作选择需要求解一个优化问题——这是 BTSD 相对于直接参数化策略的主要额外开销。但许多 OR 问题的优化问题高度结构化，可被高效求解。

参考