SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.5 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

延续价值函数 (Continuation Value Function)

2026-06-17

2026-06-17

concept

reinforcement-learning

mdp

theory

value-function

raw/papers/chen-bellman-taylor-score-2026.md

high

延续价值函数 (Continuation Value Function)

延续价值函数 G*_s(x) 是 bellman-taylor-score-decoding 框架 Taylor 展开的核心对象——它衡量系统在后动作配置 x 下的期望下游回报。

定义

G*_s(x) = E_ξ[ V*( Ξ_s(x, ξ_s) ) ]

其中 x = φ_s(a) 是后动作配置，ξ_s 是外生扰动，V* 是最优值函数。

在 Q 函数中的作用

Q 函数的分解：

Q*(s,a) = ψ_s(a) + γ G*_s(φ_s(a))
         ^^^^^^^^   ^^^^^^^^^^^^^^^^
         即时奖励     延续价值

延续价值捕获了动作 a 在未来产生的影响——BTSD 框架的核心就是用 Taylor 展开近似 G*_s。

性质

G*_s 的光滑度决定了 Taylor 近似的精确度
在排队系统中，G*_s 通常接近线性 → 一阶 Taylor 几近精确
非线性程度越高，需要保留的高阶项越多
最优策略的得分 z* = γ ∇G*_s(x_ref)：边际延续价值

与策略梯度的区别

标准策略梯度直接优化 V^π → 需要探索复杂的动作空间。BTSD 通过近似 G*_s 将动作选择简化为得分驱动的优化问题。

参考