DeepSeek-OCR：像人一样感知二维信息 --知识铺

DeepSeek上新了，这次卷向OCR领域。

（1）DeepSeek-OCR发布

2025年10月20日，DeepSeek 在GitHub上开源其最新成果——DeepSeek-OCR模型。

该模型通过光学二维映射压缩技术，长文本识别场景中实现97%识别精度，为OCR领域树立新的技术标杆。

信息感知方式从一维到二维，效率提升。

当前大模型以自回归方式（transformer decoder结构）为主，从前往后顺序读取，计算复杂度O(N^2)（自注意力机制），长上文会导致注意力稀释、窗口限制等
deepseek ocr将上文塞到图片里，用小模型视觉编码器读取，感知能力扩展到二维。
像人一样，注意力范围扩展到二维，忽略不重要的内容，效率更高

（2）模型原理

当前主流视觉编码器方案，有3种：双塔（Vary）、分块（InterVL）自适应编码表示（Qwen2-VL）。

优缺点对比：

视觉编码器类型	代表模型	优势	缺点
双塔架构（Dual-Tower）	Vary	1. 视觉词汇参数可控，便于调整模型复杂度；2. 激活内存消耗可控，降低基础资源压力。	1. 需对图像进行双重预处理，增加部署复杂度；2. 训练阶段编码器流水线并行难度高，影响训练效率。
基于分块（Tile-Based）	InternVL2.0	1. 通过图像分块实现并行计算，高分辨率场景下激活内存消耗低；2. 支持处理极高分辨率图像。	1. 原生编码器分辨率低（通常低于512×512）；2. 大尺寸图像会被过度分割，生成大量视觉 tokens，增加计算负担。
自适应分辨率编码（Adaptive Resolution）	Qwen2-VL	1. 采用 NaViT范式，通过基于 patch 的分割直接处理全图，无需分块并行；2. 可灵活适配不同分辨率图像，兼容性强。	1. 处理大尺寸图像时激活内存消耗极高，易导致 GPU 内存溢出；2. 训练阶段序列打包需极长序列长度，推理阶段的预填充和生成速度会因长视觉 tokens 变慢。

除了pipeline（流水线），也有端到端OCR实现。

然而，当前模型尚未解决关键问题：

DeepSeek-OCR 解决这个问题，统一的端到端视觉语言模型（VLM）架构。

模型采用双模块架构设计，由 DeepEncoder 视觉编码器与DeepSeek3B-MoE 混合专家解码器构成。

DeepEncoder 处理高分辨率图像时，自动维持低激活状态，通过动态压缩生成最优数量的视觉特征令牌（visual tokens），较传统方法减少60%的计算冗余。
编码器（即 DeepEncoder）负责提取图像特征，并对视觉表示进行令牌化（Tokenizing）与压缩；
解码器则基于图像令牌（Image Tokens）和提示词（Prompts）生成所需结果。

这个专门为 OCR（文字识别）微调的 6.6GB 模型，主要贡献：

（3）效果显著

将各种图表转成文本形式

保持原始格式：原始图片→版面检测→深度解析→版面还原

当视觉令牌与文本令牌的比例控制在 1:10 时，模型识别准确率达97%; 即便将压缩率提升至1:20，准确率仍保持60%以上，显著优于同类模型在极端压缩条件下的表现

OCR工具大比拼

实际应用时，DeepSeek-OCR（单张 A100-40G 显卡）每天可生成 20 万 + 页训练数据，供大语言模型（LLMs）和视觉语言模型（VLMs）使用。

（4）意义

Pleiasfr 联合创始人 Alexander Doria 点评：

DeepSeek-OCR 创新点

开启新兴的“小型专家混合（Mixture of Experts）”范式
采用激进的编码策略（aggressive encoding），并结合了语义池化（semantic pooling），DeepSeek-OCR 编码器在输入阶段就做了大量“信号压缩”工作，把低层视觉信号聚合成更高层的语义单元，再加上一些性能优化手段，显著提升了处理速度

DeepSeek-OCR 意义在于成为真正“基础型”的 OCR 模型：提前找到了推理效率与模型性能的最佳平衡点，奠定了工程基础

Karpathy 直言：最让我感兴趣的是，DeepSeek-OCR直面更根本的问题 —— 对大语言模型来说，像素是否比文本更好的输入形式？文本 token 会不会其实是一种“浪费而糟糕”的输入方式？

理论上，所有输入都应该是图像。

这样，输入可以天然使用双向注意力（bidirectional attention），而不是像语言模型那样自回归（autoregressive）地逐步处理，彻底摆脱 tokenizer（输入端）！tokenizer 既丑陋又割裂，让整个模型不再是端到端。

附录

文章目录