20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

35
concepts/deepseek-ocr.md Normal file
View File

@@ -0,0 +1,35 @@
---
title: "DeepSeek OCR"
created: 2026-06-24
updated: 2026-06-24
type: concept
tags: ["ocr", "end-to-end", "vlm", "document-parsing", "deepseek"]
sources:
- "[[unlimited-ocr-works-2026]]"
---
# DeepSeek OCR
DeepSeek OCRarXiv:2510.18234)是深度求索提出的端到端 OCR 模型Unlimited OCR 的直接基线。其核心设计包括 DeepEncoder16× 视觉 token 压缩)和 MoE 解码器3B 参数,激活 500M
## 关键组件
### DeepEncoder
级联窗口注意 ViT + 全局注意,实现 16× token 压缩率。低激活值下实现高压缩比,使得多页长程 OCR 的 prefill 可接受。
### MoE Decoder
3B 参数MoE 架构,推理时激活仅 500M。大幅降低推理计算量。
## 作为基线的问题
标准 MHA 导致 KV cache 随输出长度线性膨胀推理速度持续下降。6000 token 时 TPS 比 Unlimited OCR 低 35%。
## Unlimited OCR 的改进
保留 DeepEncoder冻结替换 decoder 所有注意力层为 R-SWA → 恒定 KV cache + 恒定 TPS + 精度提升 6pp。
## 参考
- [[unlimited-ocr-works-2026]]
- [[deepencoder]]
- [[mixture-of-experts]]
- [[end-to-end-ocr]]