2026年1月30日星期五

国产OCR神器PaddleOCR-VL-1。5开源

0.9B参数登顶全球榜首,精准识别异形文档,超越GPT-5.2。革新OCR技术,低成本实现高精度文字识别,赋能AI知识库与真实世界数据化。

现阶段,互联网上的公开文本数据,已被大模型吃得所剩无几,高质量文本数据开始枯竭,AI 的发展陷入瓶颈。

要想进一步迭代优化,则必须要从真实世界中获取更多高质量数据。

海量的学术论文、复杂的金融报表、尘封的历史档案,这些非结构化的文档中,拥有极高密度的专业知识,却因隔了一道物理屏障,让 AI 难以触及。

因此,未来的 OCR 文字识别技术,或将成为能给 AI 输送高质量「数据燃料」的关键管道。

当我们在 GitHub 上寻找相关技术解决方案时,总能发现 PaddleOCR 的身影。

它从 2020 年开源至今,随着功能的不断新增与完善,目前已累积斩获超 69000 GitHub Star,成为在 OCR 领域当之无愧的王牌项目。

img

前几天 DeepSeek 发布了 OCR-2,让 OCR 这个领域又开始活跃起来。虽然效果跟 PaddleOCR 几个月前发的 PaddleOCR-VL 第一代还有点距离,但大家也都想看看 PaddleOCR 怎么接招。

于是,就在昨天,百度反手开源了另一个王炸项目:PaddleOCR-VL-1.5

仅用 0.9B 参数,就在全球权威文档解析评测榜单 OmniDocBench V1.5 中,硬生生超越了 Gemini-3-Pro 和 GPT-5.2 模型!

img

这次发布,PaddleOCR-VL-1.5 精准解决了大家在「搭建 AI 知识库」时,遇到最头疼的问题:喂进去的图片太「异形」,模型根本读不懂。

所谓的「异形」,其实就是指我们日常随手拍的书页、合同或笔记,往往拍得歪七扭八,或者光线暗淡。

传统 OCR 遇到这种图,要么缺字漏字,要么排版结构全崩。把这种数据喂给大模型,就是一堆不可用的乱码。

而 PaddleOCR-VL-1.5 这次更新,相当于直接给模型装上了一双自带"矫正"的眼睛。

它全球首创了「异形框定位」能力,不再死板地假设文档是方方正正的,而是能像一把 "熨斗",把那些弯曲的文档在逻辑上给你烫平了。

img

这种文字识别方式,才真正符合实际生活中的应用场景。

光看这些介绍没用,还得看实际效果。下面,就跟大家一起上手实测一波。

上手实测

为了验证它的极限,我们避开了高清扫描件,专门找了些"极其刁难"的素材,同时跟 DeepSeek-OCR-2 进行对比。

对于 PaddleOCR-VL-1.5 大家可到这里免费测试:https://aistudio.baidu.com/paddleocr

img

话不多说,我随手拿起,隔壁同事桌上一包进口包装零食,分别上传给它们。

PaddleOCR-VL-1.5 完美识别到包装上的日文,反观 DeepSeek-OCR-2 直接输出一堆数字乱码:

imgPaddleOCR-VL-1.5
imgDeepSeek-OCR-2

紧接着,拿起旁边的书籍翻开弯曲拍照上传,两者都能识别到书页里完整的语句,但 DeepSeek-OCR-2 依然有老毛病出现错别字,PaddleOCR-VL-1.5 明显要稳定一些:

imgPaddleOCR-VL-1.5
imgDeepSeek-OCR-2

看来这些还是简单了,继续上难度。

上传一张医生写的诊断书,这里我刻意选了一张清晰度不是很高的图片。

虽然两者的识别结果都有错别字,但 PaddleOCR-VL-1.5 的结果较全,DeepSeek-OCR-2 模型只识别到寥寥几行字:

imgPaddleOCR-VL-1.5
imgDeepSeek-OCR-2

再来试一张光线暗淡、倾斜着的页面,并混入了各种复杂的数学公式。

PaddleOCR-VL-1.5 可准确识别并提取里面的数学公式,排版也精美简洁,OCR-2 对于数学公式的 Markdown 渲染不太好,看起来像乱码且内容缺失:

imgPaddleOCR-VL-1.5
imgDeepSeek-OCR-2

测到这里,相信大家对 PaddleOCR-VL-1.5 的「异形框定位」识别能力,已经能有个初步判断了。

除此之外,它还针对了「印章识别」和「生僻字古籍」做了专门优化,下面也来测试一下。

上传一张复杂的封面图,里面包括表格、图片等等信息,PaddleOCR-VL-1.5 看得一清二楚,并且对每个模块的内容框选出来:

img

最后,再来看一张竖排从右往左读的生僻字古籍,PaddleOCR-VL-1.5 依然能轻轻松松识别出来。

这对于古籍数字化和人文学科的研究者来说,绝对是个神器。

img

经过前面的测试之后,说真的,PaddleOCR-VL-1.5 彻底封神了,仅凭 0.9B 参数就能做到这种程度。

OCR 工具正式迎来了小参数,高精度时代,普通用户通过极低成本,便能开始创造各类需要视觉辅助的应用,把 AI 的能力引入真实世界。

这意味着,未来不管是偏远地区的文件档案数字化,还是工厂流水线上的实时质检,都不再需要昂贵的服务器。

只需一个普通的摄像头,配合上 PaddleOCR-VL-1.5,就能立马让产品拥有 "火眼金睛" 般的文字识别效果。

写在最后

至此,已然确定它在 OmniDocBench V1.5 这份全球榜单里,超越 GPT-5.2、DeepSeek-OCR-2 等模型,并不是简单一个数值,而是凭借着真真确确的硬实力登顶。

在千亿参数大模型满天飞的今天,PaddleOCR 团队坚持将参数控制在 0.9B,意味着:

  • 低成本:我们不需要昂贵的 A100,甚至普通的消费级显卡就能跑得飞起。

  • 隐私安全:这使得在金融、医疗等敏感行业,私有化本地部署成为了可能。

  • 端侧潜力:未来直接塞进手机或边缘设备也不是梦。

作为 GitHub 上的常青树,PaddleOCR 再一次证明了:解决真问题的技术,永远不缺热度。

目前,PaddleOCR-VL-1.5 模型已在 HuggingFace 和 GitHub 全面开源。

对正在为 RAG 数据清洗发愁,或者想给自己的应用加上 "上帝之眼" 的开发者来说,这一波更新,绝对值得一试。

  • GitHub:https://github.com/PaddlePaddle/PaddleOCR

  • 在线体验:https://paddleocr.com

  • HuggingFace 模型下载:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

没有评论:

发表评论

蚂蚁灵波开源世界模型LingBot-World,支持10分钟实时生成与交互

蚂蚁灵波开源通用世界模型LingBot-World,可生成10分钟动态视频并实时交互。用户通过键盘鼠标控制视角,或用自然语言指令实时修改场景。模型具备长时序一致性、记忆力和物理规律模拟能力,性能优于Genie 3等模型,并已与感知(LingBot-Depth)、决策(LingBo...