DeepSeek-OCR:像人一样感知二维信息 --知识铺
DeepSeek上新了,这次卷向OCR领域。
(1)DeepSeek-OCR发布
2025年10月20日,DeepSeek 在GitHub上开源其最新成果——DeepSeek-OCR模型。
该模型通过光学二维映射压缩技术,长文本识别场景中实现97%识别精度,为OCR领域树立新的技术标杆。
信息感知方式从一维到二维,效率提升。
- 当前大模型以自回归方式(transformer decoder结构)为主,从前往后顺序读取,计算复杂度O(N^2)(自注意力机制),长上文会导致注意力稀释、窗口限制等
- deepseek ocr将上文塞到图片里,用小模型视觉编码器读取,感知能力扩展到二维。
- 像人一样,注意力范围扩展到二维,忽略不重要的内容,效率更高
(2)模型原理
当前主流视觉编码器方案,有3种:双塔(Vary)、分块(InterVL)自适应编码表示(Qwen2-VL)。
优缺点对比:
| 视觉编码器类型 | 代表模型 | 优势 | 缺点 |
|---|---|---|---|
| 双塔架构(Dual-Tower) | Vary | 1. 视觉词汇参数可控,便于调整模型复杂度;2. 激活内存消耗可控,降低基础资源压力。 | 1. 需对图像进行双重预处理,增加部署复杂度;2. 训练阶段编码器流水线并行难度高,影响训练效率。 |
| 基于分块(Tile-Based) | InternVL2.0 | 1. 通过图像分块实现并行计算,高分辨率场景下激活内存消耗低;2. 支持处理极高分辨率图像。 | 1. 原生编码器分辨率低(通常低于512×512);2. 大尺寸图像会被过度分割,生成大量视觉 tokens,增加计算负担。 |
| 自适应分辨率编码(Adaptive Resolution) | Qwen2-VL | 1. 采用 NaViT范式,通过基于 patch 的分割直接处理全图,无需分块并行;2. 可灵活适配不同分辨率图像,兼容性强。 | 1. 处理大尺寸图像时激活内存消耗极高,易导致 GPU 内存溢出;2. 训练阶段序列打包需极长序列长度,推理阶段的预填充和生成速度会因长视觉 tokens 变慢。 |
除了pipeline(流水线),也有端到端OCR实现。
- Nougat 首次将端到端框架应用于 arXiv 平台的学术论文 OCR 任务,证明了模型在处理密集感知任务上的潜力。
- GOT-OCR2.0 将 OCR2.0 应用范围扩展到合成图像解析任务,并设计出性能与效率平衡的 OCR 模型。
- Qwen-VL 系列、InternVL 系列等通用视觉模型及其众多衍生模型,也在不断提升自身文档 OCR 能力,以探索密集视觉感知的边界。
然而,当前模型尚未解决关键问题:
- 对于一份包含 1000 个文字文档,解码时至少需要多少个视觉 token(视觉令牌)?
- 这对于 “一图胜千言” 原理的相关研究具有重要意义。
DeepSeek-OCR 解决这个问题,统一的端到端视觉语言模型(VLM)架构。
模型采用双模块架构设计,由 DeepEncoder 视觉编码器与DeepSeek3B-MoE 混合专家解码器构成。
- DeepEncoder 处理高分辨率图像时,自动维持低激活状态,通过动态压缩生成最优数量的视觉特征令牌(visual tokens),较传统方法减少60%的计算冗余。
- 编码器(即 DeepEncoder)负责提取图像特征,并对视觉表示进行令牌化(Tokenizing)与压缩;
- 解码器则基于图像令牌(Image Tokens)和提示词(Prompts)生成所需结果。
这个专门为 OCR(文字识别)微调的 6.6GB 模型,主要贡献:
- 首次量化 “视觉-文本 token 压缩比”,验证 10× 近无损压缩、20× 仍保有 60% 精度的可行性;
- 提出 DeepEncoder,解决现有编码器 “高分辨率-低内存-少token” 不可兼得的问题;
- 开发 DeepSeek-OCR,实用场景达 SOTA, 且token 消耗最少,兼具科研价值与产业落地能力。
(3)效果显著
将各种图表转成文本形式
保持原始格式:原始图片→版面检测→深度解析→版面还原
当视觉令牌与文本令牌的比例控制在 1:10 时,模型识别准确率达97%; 即便将压缩率提升至1:20,准确率仍保持60%以上,显著优于同类模型在极端压缩条件下的表现
OCR工具大比拼
- OmniDocBench 基准测试中,仅用 100 个视觉令牌,性能便超过 256 个令牌 / 页的 GOT-OCR2.0;
- 同时,视觉令牌用量少于 800 个,却优于平均每页使用 6000 + 令牌的 MinerU2.0。
实际应用时,DeepSeek-OCR(单张 A100-40G 显卡)每天可生成 20 万 + 页训练数据,供大语言模型(LLMs)和视觉语言模型(VLMs)使用。
(4)意义
Pleiasfr 联合创始人 Alexander Doria 点评:
- “DeepSeek-OCR 是里程碑式的工程成就,代表了轻量高效 OCR 模型的最佳范例。这不是终点,但可能是未来所有 OCR 系统的起点。”
- VLM/OCR 模型其实可以小得多。
- OCR 本质上是一种“模式识别”任务,不需要太多推理或长程记忆,因此模型架构可以相对轻量
DeepSeek-OCR 创新点
- 开启新兴的“小型专家混合(Mixture of Experts)”范式
- 采用激进的编码策略(aggressive encoding),并结合了语义池化(semantic pooling),DeepSeek-OCR 编码器在输入阶段就做了大量“信号压缩”工作,把低层视觉信号聚合成更高层的语义单元,再加上一些性能优化手段,显著提升了处理速度
DeepSeek-OCR 意义在于成为真正“基础型”的 OCR 模型:提前找到了推理效率与模型性能的最佳平衡点,奠定了工程基础
Karpathy 直言:最让我感兴趣的是,DeepSeek-OCR直面更根本的问题 —— 对大语言模型来说,像素是否比文本更好的输入形式?文本 token 会不会其实是一种“浪费而糟糕”的输入方式?
理论上,所有输入都应该是图像。
- 即使原始内容是纯文本,也可以先渲染成图像再输入。为什么这么做有意义?
- 信息压缩更高效:图像输入能在更短的上下文窗口中包含更多信息,推理效率更高。
- 信息流更丰富:不仅能表示文字,还能自然包含加粗、颜色、格式、甚至任意插图等视觉要素。
这样,输入可以天然使用双向注意力(bidirectional attention),而不是像语言模型那样自回归(autoregressive)地逐步处理,彻底摆脱 tokenizer(输入端)!tokenizer 既丑陋又割裂,让整个模型不再是端到端。
附录
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/stock003/post/20251022/DeepSeek-OCR%E5%83%8F%E4%BA%BA%E4%B8%80%E6%A0%B7%E6%84%9F%E7%9F%A5%E4%BA%8C%E7%BB%B4%E4%BF%A1%E6%81%AF/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com