61 lines
2.0 KiB
Markdown
61 lines
2.0 KiB
Markdown
---
|
||
title: "Geometric Compression (Latent CoT)"
|
||
created: 2026-06-25
|
||
updated: 2026-06-25
|
||
type: concept
|
||
tags: [latent-cot, mse, representation-learning, compression, supervision]
|
||
sources:
|
||
- "[[latent-cot-supervision]]"
|
||
---
|
||
|
||
# Geometric Compression (GC)
|
||
|
||
**Geometric Compression (GC)** 是 [[space-supervision|Space Supervision]] 中的一种策略,通过最小化潜状态与静态目标嵌入之间的几何距离来施加语义约束。[[latent-cot-supervision|Latent CoT Supervision]] 论文证明这是一种**破坏性约束**,会坍缩高维推理流形。
|
||
|
||
## 机制
|
||
|
||
使用 frozen encoder 将显式推理步骤 S_t 编码为静态嵌入 e_t,然后最小化 MSE:
|
||
|
||
```
|
||
L_GC = ||L_t - e_t||²
|
||
```
|
||
|
||
**动机**:如果 L_t 在欧氏空间上接近 S_t 的嵌入,它应该"编码了类似的语义"。
|
||
|
||
## 为什么失败
|
||
|
||
### 1. 信息论缺陷
|
||
|
||
MSE 是互信息 I(L_t; S_t) 的低保真代理:
|
||
- 最小化 ||L_t - e_t|| 不保证最大化 I(L_t; S_t)
|
||
- 在高维流形中,欧氏距离和语义相似性高度不一致
|
||
|
||
### 2. 优化缺陷
|
||
|
||
高维空间中 MSE 的失效模式:
|
||
- **方向不对齐**:误差可以分散到无关维度 → 低 MSE 但不保持语义
|
||
- **均值坍缩**:潜状态趋向于移动到目标嵌入的邻域均值,而非精确编码语义
|
||
|
||
### 3. 实证后果
|
||
|
||
- PS-GC 性能**低于** outcome-only 基线
|
||
- ULP 探针损失极高 → 潜状态无法恢复推理语义
|
||
- 潜流形被"压扁"到静态嵌入点
|
||
|
||
## 类比
|
||
|
||
论文将 GC 类比为 JEPA-style 表示预测:在潜空间中预测目标表示,而非重建原始观测。GC 的失败说明:
|
||
|
||
> 在潜空间中对齐静态表示是比符号空间中重建更弱的语义约束。
|
||
|
||
## 与 GR 的对比
|
||
|
||
[[generative-reconstruction-latent|Generative Reconstruction]] 通过在 token 空间重建实现更强的语义锚定,是 GC 的 superior alternative。
|
||
|
||
## 参考
|
||
|
||
- [[latent-cot-supervision]]
|
||
- [[space-supervision]]
|
||
- [[generative-reconstruction-latent]]
|
||
- [[information-performance-binding]]
|