我们可能严重低估了DeepSeek-OCR --知识铺
声明:本文完全由人类撰写,不含任何AI成分。
今天,AWS崩了,我的模型跑到一半就这样消失了。与此同时,DeepSeek发表了一个关于OCR的开源模型,相关评测和解读已经足够多了。
大概的原理就是将文字嵌入到图像中,压缩成100token,但是甚至可以嵌入超过1000token的文字。并且,随着上下文越来越长,我们可以通过调节图像的清晰度来营造一种遗忘的效果。如此,理论上我们可以获得无限的上下文。
这一做法的绝妙之处就在于,文本是一维的数据,而图像是二维的数据,图像中所能包含的信息和细节天然就比一维的文本要更多,并且在大模型中,图像的token是直接通过编码器连续编码的,文本则是离散的,这就意味着这100token,足以包含几乎无限的可能。
然而,绝大多数人看到这就会觉得,也不过如此。
然而实际上我们仔细思考就会发现,DeepSeek提供的OCR方案实际上是一种升维,即用二维信息来碾压一维。
我们接着再思考一下,图像本身受制于载体,只能是二维的,那么我们能否再次升维,将信息直接存储到三维呢?
答案是可以。
思考这个问题的时候,我的思绪飘回了六年前,飘回了《大学物理》的实验课上,我们在做一个实验,名为全息存储。
大致的过程就是借助一种特殊的全息材料,构造一条光路,引入参考光和物光,从而实现在一块玻璃的三维空间中存储物体的三维图像,本质是借助了光的干涉和衍射。
而最让我震撼的是物理老师所说的一句话:
物光和参考光的频率绑定,所选择照射在玻璃片上的参考光的频率不同,就能显示不同的物体图像,也就是说一片薄薄的玻璃片,就能存下几乎无限的信息,并且是无损的。
也就是说,借助大学生都能完成的全息存储实验,我们就可以轻而易举地无损地将大量信息嵌入到三维空间中。
当然,全息存储也并非能在一片玻璃片上存储无限的信息,本质上还是受限于信道的容量,通俗来讲,两束参考光的频率是500Hz和500.0001Hz,太过于接近了,只要受到一点点干扰,所呈现出的信息就是完全错误的。
当然,DeepSeek-OCR自然也有类似的问题,因为浮点数的精度也并非是无限的。
另外一个问题是,我们哪怕通过全息存储技术,存储了三维的信息,我们也没有办法直接通过一块玻璃片计算出1+1,而DeepSeek-OCR技术则兼具了存储和计算两种优势。
对应地,如果我们使用了全息存储方案,我们就需要使用纯光学的技术来完成门电路所完成的加减乘除、梯度下降、注意力机制,并且还要维持信息的无损保真,最好是能在存储的时候立刻进行计算,这样子我们就能直接看到计算之后的结果。对于速度,我们自然不用担心,因为我们可以直接以光速进行运算。
这,听起来像是天方夜谭,但是实际上这样的技术已经出现了,甚至还被发表在了Nature上,并赋予了一个非常贴切的名字:
物理神经网络。
甚至这篇论文发表于2022年1月,当时ChatGPT都还没出现。这篇论文的原理就是在现实世界中进行前向传播,以手写数字“8”的识别为例,具体的过程是:激光均匀地照射到一面包含若干个小镜子的仪器上,根据“8”的形状,仪器可以自动开启或者关闭,形成初始光线,这就是数据的输入。
随后,初始光线穿过一层透镜,在物理学上,透镜对应着傅立叶变换。
接着,傅立叶变换后的频谱图穿过SLM,可以理解为一层不均匀的毛玻璃,毛玻璃的形成过程就是全息存储。光束穿过这层毛玻璃后,光波的相位会发生偏移,也就是这一步对应着神经网络的矩阵乘法计算。
最后,光波再次穿过一层透镜,执行反傅立叶变换,然后照射到一个包含10个感光区域的CCD上,哪个感光区域最亮,就代表物理神经网络猜测的数字,从而完成一次前向传播。
遗憾的是,这篇论文和2024年发表在Neurips上的另一片光学神经网络的论文都遇到了反向传播的难题,因此相关工作仍然无法脱离计算机对神经网络参数的调整和重新赋值。
那么,对于光学神经网络来说,反向传播是什么呢?
其实就是一束光。
当然这束光的特性必须足够好,必须要能沿着传播的路径逆流而上,在SLM计算出反向光和正向光的干涉,也就是梯度,进而实时调整SLM中的毛玻璃的图案,类似于调整权重。
然而,这篇发表在Science上的论文,在计算梯度和更新参数的时候,也使用了数字计算机,但是确实也是最接近答案的一篇论文了。
也就是说,我们距离真正的、存粹的物理神经网络,也只差临门一脚。
那么,我们还能不能再探索更多?
答案是可以的。
量子计算就是一个潜在的研究方向,在同一时间,可以存储一个量子比特的两种不同的状态,这一过程相当于在时间这一维度上进行了扩展。
并且相关研究也已经进行了探索,尽管在量子神经网络上进行MNIST的正确率不足50%,甚至还不如物理神经网络的96%左右,但是更加具有扩展性。
当然,量子神经网络建立在一个非常重要的前提上,那就是无噪声和无观测,否则我们建立起来的时间状态就会立刻坍缩。而这个问题,比现有的物理神经网络处理起来更加棘手,更多时候存在于理论之中。
到目前为止,我们几乎已经触及了人类的知识边界。
回到开头的问题,为什么我会说我们严重低估了DeepSeek-OCR?
是因为,DeepSeek-OCR完美证明了将一维信息嵌入到二维的有效性,全息存储和物理神经网络则可以将一、二维进一步扩展到三维,量子神经网络通过引入叠加态,实现了三维到四维的跃迁。
而每次对于维度的跃升,都能让我们再次突破摩尔定律,突破信息存储容量的限制,更是突破信息无损压缩的极限。
而我相信这一切,都会在不远的将来诞生,让我们一起,拭目以待。
毕竟,人类对于未知的探索,是永无止境的。
[1] Liu, Yanbing, et al. “Physics-constrained comprehensive optical neural networks.” Advances in Neural Information Processing Systems 37 (2024): 92036-92054.
[2] Momeni, Ali, et al. “Training of physical neural networks.” Nature 645.8079 (2025): 53-61.
[3] Pai, Sunil, et al. “Experimentally realized in situ backpropagation for deep learning in photonic neural networks.” Science 380.6643 (2023): 398-404.
[4] Wei, Sun, et al. “DeepSeek-OCR: Contexts Optical Compression.” arXiv preprint arXiv:2510.00000 (2025).
[5] Wright, Logan G., et al. “Deep physical neural networks trained with backpropagation.” Nature 601.7894 (2022): 549-555.
[6] Yu, Shang, et al. “Shedding light on the future: Exploring quantum neural networks through optics.” Advanced Quantum Technologies (2024): 2400074.
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/stock003/post/20251022/%E6%88%91%E4%BB%AC%E5%8F%AF%E8%83%BD%E4%B8%A5%E9%87%8D%E4%BD%8E%E4%BC%B0%E4%BA%86DeepSeek-OCR/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com