1.2 KiB
1.2 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||
|---|---|---|---|---|---|---|---|---|---|
| Hard Token | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
Hard Token
Hard token 是标准自回归语言模型中离散 token 生成的基本单元——从词表中采样单个 token 并输出其 embedding。
定义
给定 logits 分布 π_θ(·|s_t),hard token 选自词表 V:
v_t ~ π_θ(·|s_t), u_hard = E(v_t)
这是所有标准 LLM 推理的基本操作。
特性
- 离散性:天然具有采样随机性,支持 RL 中的策略探索
- 信息瓶颈:高维隐藏状态被坍缩为单个 token,损失信息容量
- 人类可读:可被直接解释和检查
- 序列化:每个推理步骤产生一个可读 token
与 Soft Token 的关系
Hard token 和 soft-token 代表了推理中表达力与随机性之间的 trade-off:
- Hard token:随机性好,但信息容量有限
- Soft token:表达力强,但天然确定性
tarpo 的创新在于让模型自己学习何时使用哪种模式。