Files
myWiki/concepts/generative-reconstruction-latent.md

2.1 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Generative Reconstruction (Latent) 2026-06-25 2026-06-25 concept
latent-cot
reconstruction
decoder
representation-learning
mutual-information
latent-cot-supervision

Generative Reconstruction (GR)

Generative Reconstruction (GR)space-supervision 中的一种策略,通过辅助解码器从潜状态恢复显式推理步骤,在符号空间中做语义锚定。与 geometric-compression-latent 的刚性潜空间约束形成对比。

机制

在 Latent CoT 中,每个潜状态 L_t 对应一个显式推理步骤 S_t。GR 训练一个专用解码器 D_ψ

L_GR = -log D_ψ(S_t | L_t)

即标准交叉熵重建损失——L_t 被鼓励保留足够信息来恢复原始文本。

信息论优势

GR 直接最小化条件熵 H(S_t | L_t)

I(L_t; S_t) = H(S_t) - H(S_t | L_t)

由于 H(S_t) 固定GR 严格最大化 I(L_t; S_t) 的变分下界。

为什么优于 Geometric Compression

维度 GC (MSE) GR (Reconstruction)
对齐空间 潜空间(欧氏) 符号空间Token
损失 MSE → 刚性几何约束 CE → 灵活语义锚定
高维行为 允许误差分散到无关子空间 每个 token 位置独立受监督
流形效应 坍缩推理流形到静态点 保留内蕴维度

核心问题高维空间中MSE 无法约束方向对齐——误差可以分散到无关维度,保持低逐元素损失同时完全失去语义。

GR 的解决方案:通过在 token 空间中重建,每个输出维度(词表 token独立受监督迫使潜状态保留丰富的语义内容。

在 Latent CoT 中的效果

  • PS-GR 达到最优信息保真度(最低 ULP 损失)
  • 周期性校准:每一步的 GR 目标"重置"累积的信息衰减
  • 语义锚定L_t 保持可解码,即使在长推理链中

参考