20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/deepseek-ocr.md
+++ b/concepts/deepseek-ocr.md
@@ -0,0 +1,35 @@
+---
+title: "DeepSeek OCR"
+created: 2026-06-24
+updated: 2026-06-24
+type: concept
+tags: ["ocr", "end-to-end", "vlm", "document-parsing", "deepseek"]
+sources:
+  - "[[unlimited-ocr-works-2026]]"
+---
+
+# DeepSeek OCR
+
+DeepSeek OCR（arXiv:2510.18234）是深度求索提出的端到端 OCR 模型，Unlimited OCR 的直接基线。其核心设计包括 DeepEncoder（16× 视觉 token 压缩）和 MoE 解码器（3B 参数，激活 500M）。
+
+## 关键组件
+
+### DeepEncoder
+级联窗口注意 ViT + 全局注意，实现 16× token 压缩率。低激活值下实现高压缩比，使得多页长程 OCR 的 prefill 可接受。
+
+### MoE Decoder
+3B 参数，MoE 架构，推理时激活仅 500M。大幅降低推理计算量。
+
+## 作为基线的问题
+
+标准 MHA 导致 KV cache 随输出长度线性膨胀，推理速度持续下降。6000 token 时 TPS 比 Unlimited OCR 低 35%。
+
+## Unlimited OCR 的改进
+
+保留 DeepEncoder（冻结），替换 decoder 所有注意力层为 R-SWA → 恒定 KV cache + 恒定 TPS + 精度提升 6pp。
+
+## 参考
+- [[unlimited-ocr-works-2026]]
+- [[deepencoder]]
+- [[mixture-of-experts]]
+- [[end-to-end-ocr]]