20260625:很多新内容
This commit is contained in:
35
concepts/deepseek-ocr.md
Normal file
35
concepts/deepseek-ocr.md
Normal file
@@ -0,0 +1,35 @@
|
||||
---
|
||||
title: "DeepSeek OCR"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: concept
|
||||
tags: ["ocr", "end-to-end", "vlm", "document-parsing", "deepseek"]
|
||||
sources:
|
||||
- "[[unlimited-ocr-works-2026]]"
|
||||
---
|
||||
|
||||
# DeepSeek OCR
|
||||
|
||||
DeepSeek OCR(arXiv:2510.18234)是深度求索提出的端到端 OCR 模型,Unlimited OCR 的直接基线。其核心设计包括 DeepEncoder(16× 视觉 token 压缩)和 MoE 解码器(3B 参数,激活 500M)。
|
||||
|
||||
## 关键组件
|
||||
|
||||
### DeepEncoder
|
||||
级联窗口注意 ViT + 全局注意,实现 16× token 压缩率。低激活值下实现高压缩比,使得多页长程 OCR 的 prefill 可接受。
|
||||
|
||||
### MoE Decoder
|
||||
3B 参数,MoE 架构,推理时激活仅 500M。大幅降低推理计算量。
|
||||
|
||||
## 作为基线的问题
|
||||
|
||||
标准 MHA 导致 KV cache 随输出长度线性膨胀,推理速度持续下降。6000 token 时 TPS 比 Unlimited OCR 低 35%。
|
||||
|
||||
## Unlimited OCR 的改进
|
||||
|
||||
保留 DeepEncoder(冻结),替换 decoder 所有注意力层为 R-SWA → 恒定 KV cache + 恒定 TPS + 精度提升 6pp。
|
||||
|
||||
## 参考
|
||||
- [[unlimited-ocr-works-2026]]
|
||||
- [[deepencoder]]
|
||||
- [[mixture-of-experts]]
|
||||
- [[end-to-end-ocr]]
|
||||
Reference in New Issue
Block a user