昨天一大早,就被DeepSeek-OCR刷屏了,也不知道为什么心都这么齐,同一时间都发出来了。

先总结,后分析。(其实是回过头来加的)

这个OCR不是传统意义的OCR,也是大部分人自己用不上的东西,体验下玩玩就好,并不适用于传统的OCR场景,比如说给一张图片把里面内容都识别出来就很不work。

它最大的意义在于解决大模型的上下文长度问题,通过把文字压缩成图片,再用OCR视觉理解去解压图片中的信息,以此来提高大模型的处理速度和上下文长度。

**再精炼一点,**理念很牛,但你暂时用不上。

因为,它不是拿来识字的,而是拿来让AI学会看图记忆的。

这点星的速度真是飞快,昨天早晨我看到的时候就3千了,刚刚截图的时候直接8千多星了,确实是牛!

刚看到OCR的时候,我还在想,怎么DeepSeek也做OCR,真的很费解,一个OCR既然能这么火,肯定要实测下,看看到底是有什么不一样的地方。

如果你看过类似的介绍文章,大部分发的应该都是这张图,要是你懂OCR的话,那应该会觉得很奇怪,输入的图片为什么没变成一个PDF文档,而且还输出了一些原图里本没有的东西。

我也很奇怪,所以很快的实测了一张图片。

随便选了张桌面上的图,大家只看形式,忽略内容就好。

下面是结果。

你会看到,结果忽略掉了一部分图片上的内容,还多了点新的内容。

这也就是我说的,它并不适用于目前大家理解的OCR场景。

那又为什么说它很牛呢?

项目简介

DeepSeek-OCR是一种全新视觉理解模型,它并非传统意义的OCR,而是一次针对AI如何通过视觉进行信息压缩与记忆的研究。

模型由DeepEncoder和MoE 解码器两部分组成:

  • DeepEncoder将整页文字图像转化为极少量的视觉 token,用于高效表达语义信息。

  • MoE解码器再从这些压缩后的视觉token中重建出文本内容。

不同于传统的OCR更追求逐字还原,DeepSeek-OCR更关注的是上下文光学压缩,也就是让模型在压缩10 倍信息量的同时,依然保持约97%的语义还原率。

多分辨率模式

通过多分辨率模式,Tiny、Small、Base、Large、Gundam,模型可以在速度与精度间灵活切换,以适用于文档解析、图表理解、公式识别等不同的多模态任务。

这里的多分辨率,并不是之前7B/70B这种多个模型,而是输入图像的分辨率不同。

实现原理

  • Tiny/Small模式:直接缩放整图。

  • Base/Large模式:保持比例,空白区域用Padding 填充。

  • Gundam模式:拆成小块 tile + 一张全局缩略图,让模型既看局部又看整体。

核心功能

光学上下文压缩

这是DeepSeek-OCR的核心功能。模型能将长文本转化为图像形式,并通过视觉方式压缩,让语言模型在更小的上下文中记住更多信息。这是一种用视觉记忆代替文字记忆的全新思路。

高效视觉编码

模型通过极少的视觉token(约64-400个)来表达整页内容,大幅降低显存占用和计算成本,同时保持主要语义信息不丢失。

轻量级OCR(非精确)

模型可以读取主要段落、标题等关键信息,但不适合做精确识别或还原复杂版面结构。

结构化理解

模型能够识别图表、几何图、化学式等结构化内容,并输出HTML表格、SMILES分子式等格式,实现超越传统OCR的理解力。

多语言理解

支持近百种语言识别,重点在语义层面的理解,而非逐字级别的精确识别。

AI记忆系统研究

通过画图压缩记忆的方式,模型模拟人类的记忆与遗忘机制,为长上下文的 AI 记忆研究提供了新的可能性。

写在最后

DeepSeek-OCR不是更好的OCR,而是一种让AI看图思考的新思路。

它让我们看到语言模型的未来,或许不是再加长记忆,而是用视觉的方式记忆世界。

还是我开头说的那样,它很牛,但是你现在用不上,在不久之后,你可能会无感的用到它。

它对大模型上下文长度的提升,可能超越目前其他所有的方案。

项目链接

https://github.com/deepseek-ai/DeepSeek-OCR

获得更多技术支持和交流

(请注明自己的职业)

与AI时代更靠近一点