title, created, updated, type, tags, sources, confidence
| title |
created |
updated |
type |
tags |
sources |
confidence |
| Bellman-Taylor 得分解码 (BTSD) |
2026-06-17 |
2026-06-17 |
concept |
| reinforcement-learning |
| mdp |
| action-interface |
| operations-research |
|
| raw/papers/chen-bellman-taylor-score-2026.md |
|
high |
Bellman-Taylor 得分解码 (BTSD)
BTSD 是 bellman-taylor-score-decoding 提出的框架,通过Taylor 展开最优 Q 函数将 MDP 的动作空间从复杂约束空间转换为无约束欧氏得分空间。
核心机制
- Taylor 近似:
Q*(s,a) ≈ ψ_s(a) + γ⟨∇G*_s, φ_s(a)⟩ + const
- 动作解码器:
Γ(s,z) = argmax [ψ_s(a) + ⟨z, φ_s(a)⟩]
- 策略学习:π̃ 输出得分 z ∈ R^d(无约束连续动作)
- 前向解码:解码器 Γ(s,z) 将 z 映射为可行动作 a
与优化层的区别
| 方法 |
解码器角色 |
梯度需求 |
| Differentiable Optimization |
可训练层 |
需通过优化器反向传播 |
| BTSD |
固定 action-selection map |
仅前向传播,无需梯度 |
性能保证
最优性差距 J* − J_decode ≤ ε_approx + ε_learn:
ε_approx 由 Taylor 余项控制
ε_learn 是标准 DRL 的泛化误差
参考