SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.5 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

Bellman-Taylor 得分解码 (BTSD)

2026-06-17

2026-06-17

concept

reinforcement-learning

mdp

action-interface

operations-research

raw/papers/chen-bellman-taylor-score-2026.md

high

Bellman-Taylor 得分解码 (BTSD)

BTSD 是 bellman-taylor-score-decoding 提出的框架，通过Taylor 展开最优 Q 函数将 MDP 的动作空间从复杂约束空间转换为无约束欧氏得分空间。

核心机制

原始 MDP (s, a ∈ A(s) 受约束)  →  Taylor 展开 Q*  →  得分 MDP (s, z ∈ R^d)

Taylor 近似：Q*(s,a) ≈ ψ_s(a) + γ⟨∇G*_s, φ_s(a)⟩ + const
动作解码器：Γ(s,z) = argmax [ψ_s(a) + ⟨z, φ_s(a)⟩]
策略学习：π̃ 输出得分 z ∈ R^d（无约束连续动作）
前向解码：解码器 Γ(s,z) 将 z 映射为可行动作 a

与优化层的区别

方法	解码器角色	梯度需求
Differentiable Optimization	可训练层	需通过优化器反向传播
BTSD	固定 action-selection map	仅前向传播，无需梯度

性能保证

最优性差距 J* − J_decode ≤ ε_approx + ε_learn：

ε_approx 由 Taylor 余项控制
ε_learn 是标准 DRL 的泛化误差

参考