20260617:目前有914 页
This commit is contained in:
50
reviews/btsd-review-20260617.md
Normal file
50
reviews/btsd-review-20260617.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "Bellman-Taylor Score Decoding 论文集成 Review"
|
||||
created: 2026-06-17
|
||||
type: review
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文**:Bellman–Taylor Score Decoding for MDPs with State-Dependent Feasible Action Sets
|
||||
- **作者**:Yi Chen, Rushuai Yang, Qiang Chen, Dongyan (Lucy) Huo — HKUST
|
||||
- **领域**:cs.AI / Operations Research / DRL
|
||||
- **arXiv**:2606.10979v1 (2026-06-09)
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[bellman-taylor-score-decoding|BTSD]]** — Taylor 展开 Q 函数 → 得分驱动的动作选择
|
||||
2. **[[latent-score-mdp|潜在得分 MDP]]** — 诱导后的标准化 MDP,动作空间 = 欧氏空间
|
||||
3. **[[action-decoder|动作解码器]]** — 前向优化求解器,分离学习与可行性
|
||||
4. **[[state-dependent-feasible-action-sets|状态依赖可行动作集]]** — OR MDP 的核心挑战
|
||||
5. **[[queueing-network-control|排队网络控制]]** — 主要验证场景
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
```
|
||||
State-Dependent Feasible Action Sets
|
||||
↓ (DRL 接口不兼容)
|
||||
Taylor Expansion of Q-Function
|
||||
↓
|
||||
Continuation Value Function → Post-Action Configuration
|
||||
↓
|
||||
Action Decoder → Latent-Score MDP → BTSD-PPO
|
||||
↓
|
||||
Queueing Network Control (验证)
|
||||
```
|
||||
|
||||
**关联已有知识**:通过 [[reinforcement-learning]](已存在)与 wiki 的 RL 子网络连接。这是 wiki 中首个覆盖**OR × DRL 接口问题**的论文集成。
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**:10 个(1 论文 + 8 概念 + 1 raw)
|
||||
- **总规模**:869 → 879 页(+10)
|
||||
- **全新应用领域**:运筹学 MDP 的 DRL 接口标准化
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **"标准化接口而非动作空间"是优雅的工程设计**:BTSD 不尝试嵌入 A(s) 到 DRL,而是为 DRL 创造一个标准化的代理空间。这是一种"适应中间层"的设计哲学。
|
||||
|
||||
2. **解码器无需求导是实用的关键**:与 differentiable optimization 不同,BTSD 解码器仅在前向传播中使用。这对带整数变量的 OR 问题至关重要——组合优化器天然不可微。
|
||||
|
||||
3. **Taylor 展开提供了性能保证的可分解性**:最优性差距被严格分解为结构近似误差(仅依赖 MDP 属性)和算法学习误差(依赖 DRL 算法)——这种"问题难度与算法能力的解耦"是理论分析的理想形态。
|
||||
Reference in New Issue
Block a user