20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/deepencoder.md
+++ b/concepts/deepencoder.md
@@ -0,0 +1,34 @@
+---
+title: "DeepEncoder"
+created: 2026-06-24
+updated: 2026-06-24
+type: concept
+tags: ["vision-encoder", "token-compression", "ocr", "vlm"]
+sources:
+  - "[[unlimited-ocr-works-2026]]"
+---
+
+# DeepEncoder
+
+DeepEncoder 是 DeepSeek OCR 提出的高压缩率视觉编码器，被 Unlimited OCR 继承（冻结训练）。通过级联窗口注意 ViT 和全局注意，在低激活值下实现 16× token 压缩。
+
+## 架构
+
+- 窗口注意 ViT（局部特征提取）
+- 全局注意（跨窗口信息聚合）
+- 级联设计：先局部后全局
+
+## 压缩率的意义
+
+视觉 token 不参与状态转移（在 R-SWA 中静态编码），压缩率直接决定 prefill 长度上限：
+- 16× 压缩率 → 10K 视觉 token ≈ 20-30 页（1024×1024）
+- 10K 视觉 → ~100K 文本解码（1:10 视觉-文本 token 比）
+
+## 在 Unlimited OCR 中的角色
+
+训练时冻结 DeepEncoder，仅训练 LLM 参数。这是合理的——DeepEncoder 已在 DeepSeek OCR 中充分优化，重新训练无必要。
+
+## 参考
+- [[unlimited-ocr-works-2026]]
+- [[deepseek-ocr]]
+- [[reference-sliding-window-attention]]