Files
myWiki/concepts/reparameterization-exploration.md

54 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "重参数化探索 (Reparameterization Exploration)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [reinforcement-learning, latent-reasoning, exploration]
sources: [raw/papers/zhang-tarpo-2026.md]
confidence: high
---
# 重参数化探索 (Reparameterization Exploration)
重参数化探索是 [[latent-reasoning|潜在推理]] RL 中解决**连续表征确定性困境**的一条技术路线——通过噪声注入为连续表征引入随机性。
## 动机
连续潜在表征(如 [[soft-token]])本质上是确定性的——它们是对 logits 的加权求和,不包含采样随机性。这限制了 RL 中的策略探索。
## 主要方法
### Gaussian 噪声注入
在压缩潜变量或连续 token embedding 中注入高斯噪声:
```
u_noisy = u + eps eps ~ N(0, sigma^2)
```
代表性工作Soft TokensButt et al., 2025、Latent-GRPODeng et al., 2026
### Gumbel-Softmax 重参数化
使用 [[gumbel-softmax|Gumbel-Softmax trick]] 从 categorical 分布中导出可微的概率 soft-token 分布:
- 保留离散 token 的采样随机性
- 同时支持梯度反向传播
- 在 top-k 条件下构造近似的离散采样
## 与 TARPO 的关系
[[tarpo|TARPO]] 采取了**正交策略**——不修改连续表征本身,而是引入**结构级探索**structural exploration
- 重参数化探索 = **表征级**随机性(在连续向量内部加噪)
- TARPO 的路由探索 = **结构级**随机性(在 hard/soft 模式间采样)
TARPO 论文明确将两者的结合作为未来方向。
## 参考
- [[gumbel-softmax|Gumbel-Softmax]]
- [[latent-reasoning|潜在推理]]
- [[hybrid-reasoning|混合推理]]
- [[tarpo|TARPO]]