20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/geometric-compression-latent.md
+++ b/concepts/geometric-compression-latent.md
@@ -0,0 +1,60 @@
+---
+title: "Geometric Compression (Latent CoT)"
+created: 2026-06-25
+updated: 2026-06-25
+type: concept
+tags: [latent-cot, mse, representation-learning, compression, supervision]
+sources:
+  - "[[latent-cot-supervision]]"
+---
+
+# Geometric Compression (GC)
+
+**Geometric Compression (GC)** 是 [[space-supervision|Space Supervision]] 中的一种策略，通过最小化潜状态与静态目标嵌入之间的几何距离来施加语义约束。[[latent-cot-supervision|Latent CoT Supervision]] 论文证明这是一种**破坏性约束**，会坍缩高维推理流形。
+
+## 机制
+
+使用 frozen encoder 将显式推理步骤 S_t 编码为静态嵌入 e_t，然后最小化 MSE：
+
+```
+L_GC = ||L_t - e_t||²
+```
+
+**动机**：如果 L_t 在欧氏空间上接近 S_t 的嵌入，它应该"编码了类似的语义"。
+
+## 为什么失败
+
+### 1. 信息论缺陷
+
+MSE 是互信息 I(L_t; S_t) 的低保真代理：
+- 最小化 ||L_t - e_t|| 不保证最大化 I(L_t; S_t)
+- 在高维流形中，欧氏距离和语义相似性高度不一致
+
+### 2. 优化缺陷
+
+高维空间中 MSE 的失效模式：
+- **方向不对齐**：误差可以分散到无关维度 → 低 MSE 但不保持语义
+- **均值坍缩**：潜状态趋向于移动到目标嵌入的邻域均值，而非精确编码语义
+
+### 3. 实证后果
+
+- PS-GC 性能**低于** outcome-only 基线
+- ULP 探针损失极高 → 潜状态无法恢复推理语义
+- 潜流形被"压扁"到静态嵌入点
+
+## 类比
+
+论文将 GC 类比为 JEPA-style 表示预测：在潜空间中预测目标表示，而非重建原始观测。GC 的失败说明：
+
+> 在潜空间中对齐静态表示是比符号空间中重建更弱的语义约束。
+
+## 与 GR 的对比
+
+[[generative-reconstruction-latent|Generative Reconstruction]] 通过在 token 空间重建实现更强的语义锚定，是 GC 的 superior alternative。
+
+## 参考
+
+- [[latent-cot-supervision]]
+- [[space-supervision]]
+- [[generative-reconstruction-latent]]
+- [[information-performance-binding]]