实测最新开源的DeepSeek-OCR后,我有些不一样的看法,有些话可能只有我敢说 --知识铺
昨天一大早,就被DeepSeek-OCR刷屏了,也不知道为什么心都这么齐,同一时间都发出来了。
先总结,后分析。(其实是回过头来加的)
这个OCR不是传统意义的OCR,也是大部分人自己用不上的东西,体验下玩玩就好,并不适用于传统的OCR场景,比如说给一张图片把里面内容都识别出来就很不work。
它最大的意义在于解决大模型的上下文长度问题,通过把文字压缩成图片,再用OCR视觉理解去解压图片中的信息,以此来提高大模型的处理速度和上下文长度。
**再精炼一点,**理念很牛,但你暂时用不上。
因为,它不是拿来识字的,而是拿来让AI学会看图记忆的。
这点星的速度真是飞快,昨天早晨我看到的时候就3千了,刚刚截图的时候直接8千多星了,确实是牛!
刚看到OCR的时候,我还在想,怎么DeepSeek也做OCR,真的很费解,一个OCR既然能这么火,肯定要实测下,看看到底是有什么不一样的地方。
如果你看过类似的介绍文章,大部分发的应该都是这张图,要是你懂OCR的话,那应该会觉得很奇怪,输入的图片为什么没变成一个PDF文档,而且还输出了一些原图里本没有的东西。
我也很奇怪,所以很快的实测了一张图片。
随便选了张桌面上的图,大家只看形式,忽略内容就好。
下面是结果。
你会看到,结果忽略掉了一部分图片上的内容,还多了点新的内容。
这也就是我说的,它并不适用于目前大家理解的OCR场景。
那又为什么说它很牛呢?
项目简介
DeepSeek-OCR是一种全新视觉理解模型,它并非传统意义的OCR,而是一次针对AI如何通过视觉进行信息压缩与记忆的研究。
模型由DeepEncoder和MoE 解码器两部分组成:
-
DeepEncoder将整页文字图像转化为极少量的视觉 token,用于高效表达语义信息。
-
MoE解码器再从这些压缩后的视觉token中重建出文本内容。
不同于传统的OCR更追求逐字还原,DeepSeek-OCR更关注的是上下文光学压缩,也就是让模型在压缩10 倍信息量的同时,依然保持约97%的语义还原率。
多分辨率模式
通过多分辨率模式,Tiny、Small、Base、Large、Gundam,模型可以在速度与精度间灵活切换,以适用于文档解析、图表理解、公式识别等不同的多模态任务。
这里的多分辨率,并不是之前7B/70B这种多个模型,而是输入图像的分辨率不同。
实现原理
-
Tiny/Small模式:直接缩放整图。
-
Base/Large模式:保持比例,空白区域用Padding 填充。
-
Gundam模式:拆成小块 tile + 一张全局缩略图,让模型既看局部又看整体。
核心功能
光学上下文压缩
这是DeepSeek-OCR的核心功能。模型能将长文本转化为图像形式,并通过视觉方式压缩,让语言模型在更小的上下文中记住更多信息。这是一种用视觉记忆代替文字记忆的全新思路。
高效视觉编码
模型通过极少的视觉token(约64-400个)来表达整页内容,大幅降低显存占用和计算成本,同时保持主要语义信息不丢失。
轻量级OCR(非精确)
模型可以读取主要段落、标题等关键信息,但不适合做精确识别或还原复杂版面结构。
结构化理解
模型能够识别图表、几何图、化学式等结构化内容,并输出HTML表格、SMILES分子式等格式,实现超越传统OCR的理解力。
多语言理解
支持近百种语言识别,重点在语义层面的理解,而非逐字级别的精确识别。
AI记忆系统研究
通过画图压缩记忆的方式,模型模拟人类的记忆与遗忘机制,为长上下文的 AI 记忆研究提供了新的可能性。
写在最后
DeepSeek-OCR不是更好的OCR,而是一种让AI看图思考的新思路。
它让我们看到语言模型的未来,或许不是再加长记忆,而是用视觉的方式记忆世界。
还是我开头说的那样,它很牛,但是你现在用不上,在不久之后,你可能会无感的用到它。
它对大模型上下文长度的提升,可能超越目前其他所有的方案。
项目链接
https://github.com/deepseek-ai/DeepSeek-OCR
获得更多技术支持和交流
(请注明自己的职业)
与AI时代更靠近一点
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/stock003/post/20251022/%E5%AE%9E%E6%B5%8B%E6%9C%80%E6%96%B0%E5%BC%80%E6%BA%90%E7%9A%84DeepSeek-OCR%E5%90%8E%E6%88%91%E6%9C%89%E4%BA%9B%E4%B8%8D%E4%B8%80%E6%A0%B7%E7%9A%84%E7%9C%8B%E6%B3%95%E6%9C%89%E4%BA%9B%E8%AF%9D%E5%8F%AF%E8%83%BD%E5%8F%AA%E6%9C%89%E6%88%91%E6%95%A2%E8%AF%B4/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com