Files
myWiki/concepts/soft-token.md

47 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Soft Token"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [latent-reasoning, architecture, tokenization]
sources: [raw/papers/zhang-tarpo-2026.md]
confidence: high
---
# Soft Token
Soft token 是 [[latent-reasoning|潜在推理]] 中的核心构建块——它是 token embedding 空间中**概率加权的连续向量混合**,而非单个离散 token。
## 定义
给定当前 logits对 top-k 个候选 token 的 embedding 进行 softmax 加权求和:
```
u_soft = sum_{i in K_t} w^(i) * E(v^(i))
```
其中 `K_t` 是 top-k token 集合,`w^(i)` 是对应 logits 的 softmax 归一化权重,`E(v^(i))` 是 token embedding。
## 与 Hard Token 的对比
| 属性 | [[hard-token]] | soft token |
|------|---------------|------------|
| 类型 | 离散 | 连续 |
| 表达力 | 单一 token | 多条路径的混合 |
| 随机性 | 采样自带随机性 | 确定性加权 |
| 可读性 | 人类可读 | 不可读 |
| RL 探索 | 天然支持 | 需要额外引入 |
## 在 TARPO 中的作用
在 [[tarpo|TARPO]] 中,当 [[action-head-router|路由器]] 选择 soft 模式时,推理步骤使用 soft token 而非离散 token
- **数学推理中**:路由器倾向于在关键数学 token 上分配高 soft 概率
- **结构文本中**:保持 hard token 生成
## 参考
- [[hard-token]]
- [[latent-reasoning|潜在推理]]
- [[tarpo|TARPO]]
- [[continuous-representation|连续表征]]