51 lines
1.5 KiB
Markdown
51 lines
1.5 KiB
Markdown
---
|
||
title: "延续价值函数 (Continuation Value Function)"
|
||
created: 2026-06-17
|
||
updated: 2026-06-17
|
||
type: concept
|
||
tags: [reinforcement-learning, mdp, theory, value-function]
|
||
sources: [raw/papers/chen-bellman-taylor-score-2026.md]
|
||
confidence: high
|
||
---
|
||
|
||
# 延续价值函数 (Continuation Value Function)
|
||
|
||
延续价值函数 `G*_s(x)` 是 [[bellman-taylor-score-decoding|BTSD]] 框架 Taylor 展开的核心对象——它衡量系统在**后动作配置 x** 下的期望下游回报。
|
||
|
||
## 定义
|
||
|
||
```
|
||
G*_s(x) = E_ξ[ V*( Ξ_s(x, ξ_s) ) ]
|
||
```
|
||
|
||
其中 `x = φ_s(a)` 是后动作配置,`ξ_s` 是外生扰动,`V*` 是最优值函数。
|
||
|
||
## 在 Q 函数中的作用
|
||
|
||
Q 函数的分解:
|
||
|
||
```
|
||
Q*(s,a) = ψ_s(a) + γ G*_s(φ_s(a))
|
||
^^^^^^^^ ^^^^^^^^^^^^^^^^
|
||
即时奖励 延续价值
|
||
```
|
||
|
||
延续价值捕获了动作 a 在未来产生的影响——BTSD 框架的核心就是**用 Taylor 展开近似 G*_s**。
|
||
|
||
## 性质
|
||
|
||
- G*_s 的**光滑度**决定了 Taylor 近似的精确度
|
||
- 在排队系统中,G*_s 通常接近线性 → 一阶 Taylor 几近精确
|
||
- 非线性程度越高,需要保留的高阶项越多
|
||
- 最优策略的得分 `z* = γ ∇G*_s(x_ref)`:**边际延续价值**
|
||
|
||
## 与策略梯度的区别
|
||
|
||
标准策略梯度直接优化 V^π → 需要探索复杂的动作空间。BTSD 通过近似 G*_s 将动作选择简化为得分驱动的优化问题。
|
||
|
||
## 参考
|
||
|
||
- [[taylor-expansion-q-function|Q 函数 Taylor 展开]]
|
||
- [[post-action-configuration|后动作配置]]
|
||
- [[bellman-taylor-score-decoding|BTSD]]
|