60 lines
2.1 KiB
Markdown
60 lines
2.1 KiB
Markdown
---
|
||
title: "Generative Reconstruction (Latent)"
|
||
created: 2026-06-25
|
||
updated: 2026-06-25
|
||
type: concept
|
||
tags: [latent-cot, reconstruction, decoder, representation-learning, mutual-information]
|
||
sources:
|
||
- "[[latent-cot-supervision]]"
|
||
---
|
||
|
||
# Generative Reconstruction (GR)
|
||
|
||
**Generative Reconstruction (GR)** 是 [[space-supervision|Space Supervision]] 中的一种策略,通过辅助解码器从潜状态恢复显式推理步骤,在符号空间中做语义锚定。与 [[geometric-compression-latent|Geometric Compression (GC)]] 的刚性潜空间约束形成对比。
|
||
|
||
## 机制
|
||
|
||
在 Latent CoT 中,每个潜状态 L_t 对应一个显式推理步骤 S_t。GR 训练一个专用解码器 D_ψ:
|
||
|
||
```
|
||
L_GR = -log D_ψ(S_t | L_t)
|
||
```
|
||
|
||
即标准交叉熵重建损失——L_t 被鼓励保留足够信息来恢复原始文本。
|
||
|
||
## 信息论优势
|
||
|
||
GR 直接最小化条件熵 H(S_t | L_t):
|
||
|
||
```
|
||
I(L_t; S_t) = H(S_t) - H(S_t | L_t)
|
||
```
|
||
|
||
由于 H(S_t) 固定,GR 严格最大化 I(L_t; S_t) 的变分下界。
|
||
|
||
## 为什么优于 Geometric Compression
|
||
|
||
| 维度 | GC (MSE) | GR (Reconstruction) |
|
||
|------|----------|---------------------|
|
||
| 对齐空间 | 潜空间(欧氏) | 符号空间(Token) |
|
||
| 损失 | MSE → 刚性几何约束 | CE → 灵活语义锚定 |
|
||
| 高维行为 | 允许误差分散到无关子空间 | 每个 token 位置独立受监督 |
|
||
| 流形效应 | 坍缩推理流形到静态点 | 保留内蕴维度 |
|
||
|
||
**核心问题**:高维空间中,MSE 无法约束方向对齐——误差可以分散到无关维度,保持低逐元素损失同时完全失去语义。
|
||
|
||
**GR 的解决方案**:通过在 token 空间中重建,每个输出维度(词表 token)独立受监督,迫使潜状态保留丰富的语义内容。
|
||
|
||
## 在 Latent CoT 中的效果
|
||
|
||
- PS-GR 达到最优信息保真度(最低 ULP 损失)
|
||
- 周期性校准:每一步的 GR 目标"重置"累积的信息衰减
|
||
- 语义锚定:L_t 保持可解码,即使在长推理链中
|
||
|
||
## 参考
|
||
|
||
- [[latent-cot-supervision]]
|
||
- [[space-supervision]]
|
||
- [[geometric-compression-latent]]
|
||
- [[unified-latent-probe]]
|