SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

测试时控制 (Test-Time Control)

2026-06-14

2026-06-14

concept

agent

inference

control

representation

raw/papers/procedural-skills-to-strategy-genes-2026.md

测试时控制 (Test-Time Control)

Wang et al. (2026) 中将测试时控制定义为：外部化经验表示在不修改模型参数的情况下，在推理时改变模型行为的能力。

形式化

给定任务输入 x、可复用经验表示 r、固定参数 theta 的模型：

y ~ p_theta(y | x, r; gamma)

其中 gamma 是推理配置（温度、最大输出长度等）。表示 r 是控制相关的，当且仅当：

p_theta(y | x, r) != p_theta(y | x, empty)

对目标分布下非平凡子集的任务成立。

排除范围

不是参数更新 — theta 保持固定
不是一次性提示技巧 — 从先前经验中抽象出来，用于复用
不是对话回忆 — 目标是提供任务相关控制，而非维持对话连续性

核心问题

核心问题不仅是"经验如何被存储或检索"，更是"什么表示形式能让先前经验在受限推理预算下作为有效的测试时控制"。

与过程技能的关系

过程技能为人类理解而优化，而测试时控制需要紧凑、行为导向、在受限 token 预算和注意力下有效的引导。一种对人类理解有用的表示可能是低效的，甚至在模型上下文中产生误导。

参考

procedural-skills-to-strategy-genes — 提出论文
strategy-gene — 为测试时控制设计
procedural-skill — 不为测试时控制设计
experience-representation — 更广的表示空间