Files
myWiki/concepts/geometric-compression-latent.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Geometric Compression (Latent CoT) 2026-06-25 2026-06-25 concept
latent-cot
mse
representation-learning
compression
supervision
latent-cot-supervision

Geometric Compression (GC)

Geometric Compression (GC)space-supervision 中的一种策略,通过最小化潜状态与静态目标嵌入之间的几何距离来施加语义约束。latent-cot-supervision 论文证明这是一种破坏性约束,会坍缩高维推理流形。

机制

使用 frozen encoder 将显式推理步骤 S_t 编码为静态嵌入 e_t然后最小化 MSE

L_GC = ||L_t - e_t||²

动机:如果 L_t 在欧氏空间上接近 S_t 的嵌入,它应该"编码了类似的语义"。

为什么失败

1. 信息论缺陷

MSE 是互信息 I(L_t; S_t) 的低保真代理:

  • 最小化 ||L_t - e_t|| 不保证最大化 I(L_t; S_t)
  • 在高维流形中,欧氏距离和语义相似性高度不一致

2. 优化缺陷

高维空间中 MSE 的失效模式:

  • 方向不对齐:误差可以分散到无关维度 → 低 MSE 但不保持语义
  • 均值坍缩:潜状态趋向于移动到目标嵌入的邻域均值,而非精确编码语义

3. 实证后果

  • PS-GC 性能低于 outcome-only 基线
  • ULP 探针损失极高 → 潜状态无法恢复推理语义
  • 潜流形被"压扁"到静态嵌入点

类比

论文将 GC 类比为 JEPA-style 表示预测在潜空间中预测目标表示而非重建原始观测。GC 的失败说明:

在潜空间中对齐静态表示是比符号空间中重建更弱的语义约束。

与 GR 的对比

generative-reconstruction-latent 通过在 token 空间重建实现更强的语义锚定,是 GC 的 superior alternative。

参考