1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 重参数化探索 (Reparameterization Exploration) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
重参数化探索 (Reparameterization Exploration)
重参数化探索是 latent-reasoning RL 中解决连续表征确定性困境的一条技术路线——通过噪声注入为连续表征引入随机性。
动机
连续潜在表征(如 soft-token)本质上是确定性的——它们是对 logits 的加权求和,不包含采样随机性。这限制了 RL 中的策略探索。
主要方法
Gaussian 噪声注入
在压缩潜变量或连续 token embedding 中注入高斯噪声:
u_noisy = u + eps, eps ~ N(0, sigma^2)
代表性工作:Soft Tokens(Butt et al., 2025)、Latent-GRPO(Deng et al., 2026)
Gumbel-Softmax 重参数化
使用 gumbel-softmax 从 categorical 分布中导出可微的概率 soft-token 分布:
- 保留离散 token 的采样随机性
- 同时支持梯度反向传播
- 在 top-k 条件下构造近似的离散采样
与 TARPO 的关系
tarpo 采取了正交策略——不修改连续表征本身,而是引入结构级探索(structural exploration):
- 重参数化探索 = 表征级随机性(在连续向量内部加噪)
- TARPO 的路由探索 = 结构级随机性(在 hard/soft 模式间采样)
TARPO 论文明确将两者的结合作为未来方向。