一图胜千言
比如这是一张典型的金融研究报告。,里面有文字,有图表,有各种复杂的排版。
你让一个传统的OCR软件去看这张图,它可能会非常精准地,把里面所有的文字,都抠出来,变成一个TXT文档。
然后就没有然后了。
但是DeepSeek-OCR,它看完这张图,会直接,生成一个Markdown文档。
在这个文档里,文字是文字,标题是标题,最关键的是,那些图表,被它用代码,也重新画了一遍,变成了一个可以被编辑被引用的表格。
因为AI理解文字的方式,跟我们不一样。
我们看书,是一目十行。
AI读文字,它需要把每个字,每个词,都转换成Token。你可以把它简单的理解成一个一个的"字节",是数据里面的那个字节,不是字节跳动的字节。
现在主流AI架构的缺陷是,它在读每一个新词的时候,为了理解上下文,它需要把这个新词和前面所有出现过的词,都建立一次联系。
所以处理这些Token的计算量,是随着文本长度的平方增加的。
但如果来了100个人,每个人都要跟其他人贴贴,就需要将近5000次贴贴,这基本就属于废了。
这就是技术上常说的计算复杂度是N的平方。
这个成本,是指数级增长的,谁都扛不住。
所以,长久以来,整个AI界都在死磕一个问题,怎么让AI,能又快又便宜的搞定上下文的问题?
大家想了很多办法,什么滑动窗口、稀疏注意力,各种各样的算法优化。但这些,都像是给一辆漏油的破车,换更好的轮胎,贴更骚的膜。
但是它,解决不了发动机的根本问题啊。
然后DeepSeek这次,它根本没管你那个漏油的破逼车,而是,直接给你买了一辆,新能源。
它说:"我们为什么,非要让AI一个字一个字地读呢?我们能不能让它,像我们人一样,看?"
就是我不再把一本300页的书,转换成几十万个Token的文本文件,喂给AI。
而是,我直接把这300页书,拍成一张张照片,变成一个图像文件,然后,让AI去看这张图。
你可能觉得,这不是脱裤子放屁吗?照片不也是由像素组成的吗?信息量不是更大了吗?
对,但你忽略了最关键的一点:
图像,是二维的,而文字,是一维的。
一维的文字,就像一根无限长的薯条,你想吃它,智能从头吃到尾,一个字节都不能少。
而二维的图像,就像一张大饼,你一眼扫过去,整个饼的全貌,尽收眼底。
DeepSeek-OCR,干的就是这事,把所有的文字,全部压缩成图像。
这个过程,在他们的论文里,叫"上下文光学压缩"(Contexts Optical Compression)。
文本
的形式记在脑子里。文本
聊天记录,自动渲染成一张或着几张长长的图片,就像你给聊天记录截了个屏。 + 990轮聊天记录的
视觉token
。视觉token,就能把
它
解码还原成
原文的能力。论文里给出的数据是,在保持96.5%的识别准确率的前提下,压缩比可以达到惊人的10倍。
压缩比 = 原来的文本token总数 ÷ 压缩后视觉token总数。
而20倍的压缩比,还能保留60%的准确率,虽然这个准确率确实不咋地,但是,这也是给未来留下了非常值得优化的方向。
说实话,这个东西确实很新,真的很有意思,可能是我为数不多的最近看到的最好玩的模型论文。
一图胜千言,可能说的就是如此吧。
而且细细想来,其实这种压缩之法,也确实没啥毛病。
我们总觉得文字是信息传递的巅峰。
但从整个人类历史和生物进化的角度看,视觉,才是我们一直处理信息的最重要的手段。
在文字诞生之前的几十万年里,我们的祖先就是靠看来生存的。
看天色,看猎物,看同伴的表情,看亲手刻下的壁画。
在纸张和印刷术普及之前,人类是怎么记录宏大叙事的?是壁画,是浮雕。
埃及金字塔里的象形文字,敦煌莫高窟里的经变画,它们本身就是一种压缩。古埃及人把复杂的祭祀、律法、历史,压缩在一幅幅画里,等待别人去解压。
从这个角度看,DeepSeek-OCR干的事,和当年的人类,其实也没什么两样。
但是当我觉得,最头皮发麻为之一振的话。
其实是论文的最后,他们写的一点点希望讨论的。
DeepSeek说,对于那些更古老的上下文,我们可以逐步缩小渲染出的图像,以进一步减少令牌消耗。
这个假设的灵感,来自于一个非常自然且深刻的类比:
人类的记忆会随着时间的推移而衰退,人类的视觉感知会随着空间距离的拉远而退化。
这种现象,它们都表现出了相似的、渐进式的信息丢失模式。
他们可以用"上下文光学压缩"的方法,实现了一种记忆衰减形式。
比如图表里,最左是 Text token,也就是不压缩的纯文本,信息保真;往右是把文字渲成图再编码成视觉 token 的不同模式,Gundam 比较豪华、细节多、花销大,Large 再次之,Base、Small、Tiny 依次更省 token、也更模糊。
它几乎,完美地镜像了生物的遗忘曲线。
在这个机制下,最近的信息保持着高保真度,而遥远的记忆则通过不断提高的压缩率,自然地褪色和淡忘。
这个机制,实在是太酷了。
很像是在探讨,一种"数字生命"的可能形态。
我们一直以来追求的AI,是什么样的?
是一个拥有无限记忆、绝对理性的"神"。
它不会遗忘,不会犯错,像一台完美的机器。
但我们自己是这样的吗?
不是。
遗忘,恰恰是人类智慧最重要的组成部分。
我们之所以能够创新,能够抓住重点,能够在复杂的世界里做出决断,正是因为我们的大脑懂得,放下。
我们会忘记那些不重要的细节,我们会模糊那些久远的伤痛,我们会把宝贵的认知资源,留给当下最重要的事情。
遗忘,还有错误,真的不是bug,是我们这个物种能够延续至今的核心算法之一。
就像西部世界里的那句经典台词。
在福特的理论中,进化形成了这个星球上有情感和知觉的生命体,"用的唯一工具,就是错误。"
遗忘,也是那个"错误"。
对DeepSeek-OCR感兴趣的,可以去他们的项目网址看一看,体验一下。
https://github.com/deepseek-ai/DeepSeek-OCR
但是,我也非常强烈的建议,大家也可以,去读一读这篇论文的原文。
不需要看那些很技术的原理和数学,只要看方法,还有范式,其实就能学到很多东西。
我把论文原文也放在公众号后台了,你对着后台私信"OCR",也会自动的发给你。
感谢DeepSeek。
惟愿我们。
国运昌隆。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com
没有评论:
发表评论