Files
myWiki/concepts/continuation-value-function.md

51 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "延续价值函数 (Continuation Value Function)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [reinforcement-learning, mdp, theory, value-function]
sources: [raw/papers/chen-bellman-taylor-score-2026.md]
confidence: high
---
# 延续价值函数 (Continuation Value Function)
延续价值函数 `G*_s(x)` 是 [[bellman-taylor-score-decoding|BTSD]] 框架 Taylor 展开的核心对象——它衡量系统在**后动作配置 x** 下的期望下游回报。
## 定义
```
G*_s(x) = E_ξ[ V*( Ξ_s(x, ξ_s) ) ]
```
其中 `x = φ_s(a)` 是后动作配置,`ξ_s` 是外生扰动,`V*` 是最优值函数。
## 在 Q 函数中的作用
Q 函数的分解:
```
Q*(s,a) = ψ_s(a) + γ G*_s(φ_s(a))
^^^^^^^^ ^^^^^^^^^^^^^^^^
即时奖励 延续价值
```
延续价值捕获了动作 a 在未来产生的影响——BTSD 框架的核心就是**用 Taylor 展开近似 G*_s**。
## 性质
- G*_s 的**光滑度**决定了 Taylor 近似的精确度
- 在排队系统中G*_s 通常接近线性 → 一阶 Taylor 几近精确
- 非线性程度越高,需要保留的高阶项越多
- 最优策略的得分 `z* = γ ∇G*_s(x_ref)`**边际延续价值**
## 与策略梯度的区别
标准策略梯度直接优化 V^π → 需要探索复杂的动作空间。BTSD 通过近似 G*_s 将动作选择简化为得分驱动的优化问题。
## 参考
- [[taylor-expansion-q-function|Q 函数 Taylor 展开]]
- [[post-action-configuration|后动作配置]]
- [[bellman-taylor-score-decoding|BTSD]]