SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

省略号提示 (Ellipsis Prompt)

2026-06-18

2026-06-18

concept

prompting

hybrid-reasoning

sampling

gan-thinking-based-non-thinking-2026

省略号提示 (Ellipsis Prompt)

Ellipsis Prompt 是 Tu et al. (2025) 在 AutoThink 中引入的特殊提示格式，用于在不使用 off-policy 采样的条件下实现非思考模式的采样。TNT 沿用了此技术（Gan et al., 2026）。

格式

x = [x_1, ..., x_n, <think>, \n, ..., \n]

在查询末尾和 <think> 后附加多个换行符。

工作原理

通常，LRM 的输入格式为 [query, <think>]——模型自然地以思考内容开始生成。省略号提示通过追加空行，为模型创造了一个可能的"跳过思考"路径：

标准路径：<think> → "Wait, let me..."（思考模式）
省略号路径：<think> → 直接以 </think> 开始（非思考模式）

在 TNT 中的使用

TNT 使用省略号提示使得每个 prompt x 的 K 次采样可能同时包含思考和非思考模式响应——这对于 dynamic-token-limit 的计算至关重要：需要从思考模式响应的 solution 长度推导非思考模式的上限。

优势

相比需要修改 tokenizer 的方案（如添加 <short> token），省略号提示不需要修改 tokenizer，直接兼容现有 LRM。

参考