SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

Soft Token

2026-06-17

2026-06-17

concept

latent-reasoning

architecture

tokenization

raw/papers/zhang-tarpo-2026.md

high

Soft Token

Soft token 是 latent-reasoning 中的核心构建块——它是 token embedding 空间中概率加权的连续向量混合，而非单个离散 token。

定义

给定当前 logits，对 top-k 个候选 token 的 embedding 进行 softmax 加权求和：

u_soft = sum_{i in K_t} w^(i) * E(v^(i))

其中 K_t 是 top-k token 集合，w^(i) 是对应 logits 的 softmax 归一化权重，E(v^(i)) 是 token embedding。

与 Hard Token 的对比

属性	hard-token	soft token
类型	离散	连续
表达力	单一 token	多条路径的混合
随机性	采样自带随机性	确定性加权
可读性	人类可读	不可读
RL 探索	天然支持	需要额外引入

在 TARPO 中的作用

在 tarpo 中，当 action-head-router 选择 soft 模式时，推理步骤使用 soft token 而非离散 token：

数学推理中：路由器倾向于在关键数学 token 上分配高 soft 概率
结构文本中：保持 hard token 生成

参考