--- title: "Soft Token" created: 2026-06-17 updated: 2026-06-17 type: concept tags: [latent-reasoning, architecture, tokenization] sources: [raw/papers/zhang-tarpo-2026.md] confidence: high --- # Soft Token Soft token 是 [[latent-reasoning|潜在推理]] 中的核心构建块——它是 token embedding 空间中**概率加权的连续向量混合**,而非单个离散 token。 ## 定义 给定当前 logits,对 top-k 个候选 token 的 embedding 进行 softmax 加权求和: ``` u_soft = sum_{i in K_t} w^(i) * E(v^(i)) ``` 其中 `K_t` 是 top-k token 集合,`w^(i)` 是对应 logits 的 softmax 归一化权重,`E(v^(i))` 是 token embedding。 ## 与 Hard Token 的对比 | 属性 | [[hard-token]] | soft token | |------|---------------|------------| | 类型 | 离散 | 连续 | | 表达力 | 单一 token | 多条路径的混合 | | 随机性 | 采样自带随机性 | 确定性加权 | | 可读性 | 人类可读 | 不可读 | | RL 探索 | 天然支持 | 需要额外引入 | ## 在 TARPO 中的作用 在 [[tarpo|TARPO]] 中,当 [[action-head-router|路由器]] 选择 soft 模式时,推理步骤使用 soft token 而非离散 token: - **数学推理中**:路由器倾向于在关键数学 token 上分配高 soft 概率 - **结构文本中**:保持 hard token 生成 ## 参考 - [[hard-token]] - [[latent-reasoning|潜在推理]] - [[tarpo|TARPO]] - [[continuous-representation|连续表征]]