Files
myWiki/concepts/soft-token.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Soft Token 2026-06-17 2026-06-17 concept
latent-reasoning
architecture
tokenization
raw/papers/zhang-tarpo-2026.md
high

Soft Token

Soft token 是 latent-reasoning 中的核心构建块——它是 token embedding 空间中概率加权的连续向量混合,而非单个离散 token。

定义

给定当前 logits对 top-k 个候选 token 的 embedding 进行 softmax 加权求和:

u_soft = sum_{i in K_t} w^(i) * E(v^(i))

其中 K_t 是 top-k token 集合,w^(i) 是对应 logits 的 softmax 归一化权重,E(v^(i)) 是 token embedding。

与 Hard Token 的对比

属性 hard-token soft token
类型 离散 连续
表达力 单一 token 多条路径的混合
随机性 采样自带随机性 确定性加权
可读性 人类可读 不可读
RL 探索 天然支持 需要额外引入

在 TARPO 中的作用

tarpo 中,当 action-head-router 选择 soft 模式时,推理步骤使用 soft token 而非离散 token

  • 数学推理中:路由器倾向于在关键数学 token 上分配高 soft 概率
  • 结构文本中:保持 hard token 生成

参考