2025年5月29日星期四

国产神级开源 OCR 神器,再次起飞。

PaddleOCR 3.0 发布:OCR 精度跃升13%,支持多语种、手写体与高精度文档解析。PaddleOCR 自发布以来凭借学术前沿算法和产业落地实践,受到了产学研各方的喜爱。被广泛应用于众多知名开源项目如Umi-OCR、OmniParser、MinerU、RAGFlow等,已成为广大开发者心中的开源 OCR 领域的首选工具。

2025年5月20日,飞桨团队发布 PaddleOCR 3.0 并对外开源,全面适配飞桨框架3.0正式版,进一步提升文字识别精度。

PaddleOCR 3.0 支持文字类型识别和手写体识别,满足大模型应用对复杂文档高精度解析的旺盛需求。

PaddleOCR 3.0 结合文心大模型4.5 Turbo显著提升关键信息抽取精度,新增对昆仑芯、昇腾等国产硬件的支持

图片

01

全场景文字识别模型PP-OCRv5

单模型支持 5 种文字类型和复杂手写体识别

整体识别精度相比上一代提升 13 个百分点

PP-OCRv5是面向大模型时代多模态需求、聚焦多语言多场景识别的轻量级端到端文字识别方案。

该方案实现以单一模型高效、精准地支持简体中文、繁体中文、中文拼音、英文、日文五种文字类型,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。

图片

① 支持复杂手写体识别:

手写体混合印刷体的识别是多个应用场景的刚需,例如:教育行业的试卷作业批改场景、医疗行业的病历数字化场景、法律行业的合同笔录数字化场景等。

PP-OCRv5支持中英日手写体识别,对复杂连笔、非规范字迹识别精度有显著提升。

② 整体识别达到SOTA精度:

业务多场景高难度文字识别评估集上,PP-OCRv5 的识别精度达到当前最优,比上一版本 PP-OCRv4,识别精度提升13个百分点

图片

图片

欢迎开发者到飞桨星河社区体验PP-OCRv5的能力:

https://aistudio.baidu.com/community/app/91660/webUI

02

通用文档解析方案PP-StructureV3

支持多场景、多版式PDF高精度解析

在公开评测集中领先众多开源和闭源方案

文档解析是一种从文档图像中提取结构化信息的技术,主要用于将复杂的文档版面转换为结构化数据,这项技术在AI大模型文档处理领域有广泛的应用。

通用文档解析方案 PP-StructureV3 在上一代的基础上,强化了版面区域检测、表格识别、公式识别的能力,增加了图表理解和多栏阅读顺序的恢复能力,并可以将结果转换 Markdown和JSON格式。

图片

PP-StructureV3的主要优势有:

① 精度高支持多场景、多版式PDF高精度解析,在OmniDocBench基准测试中领先众多开源和闭源方案。

图片

注:以上精度信息除PP-StructureV3和MinerU-1.3.11为自测精度外,均来自OmniDocBench

② 多项专精能力除了在OmniDocBench上的精度指标更高之外,PP-StructureV3还有多项专精能力,如:印章识别、图表转表格、嵌套公式/图片的表格识别、竖排文本解析及复杂表格结构分析等——这些能力是很多重要场景AI应用落地的刚需。

欢迎开发者到飞桨星河社区体验PP-StructureV3的能力:

https://aistudio.baidu.com/community/app/518494/webUI

03

智能文档理解方案PP-ChatOCRv4

原生支持文心大模型4.5 Turbo

关键信息抽取精度相比上一代提升15个百分点

PP-ChatOCR系列是飞桨特色智能文档理解类解决方案,融合大模型和小模型的优势能力,达到通用场景下的文档图像关键信息抽取效果,支持身份证、银行卡、企业合同等多种场景的关键信息提取

PP-ChatOCRv4在上一代基础上,结合文心大模型4.5 Turbo强大的理解优势,并支持离线使用多模态文档理解模型PP-DocBee2,实现了更高效的文本图像信息抽取,一站式解决版面分析、生僻字、多页pdf、表格、印章识别等常见的复杂文档信息抽取难点问题。

图片

PP-ChatOCRv4的主要优势有:

① 关键信息抽取精度相比上一代提升15个百分点,效果业界领先。在内部业务中文场景评估集(覆盖印刷文字、表格、印章、图表等)中的准确率如下表所示:

图片

② 原生支持文心大模型4.5 Turbo,还兼容PaddleNLP、Ollama等工具部署离线大模型。

③ 集成 PP-DocBee2,支持印刷文字、手写体文字、印章信息、表格、图表等常见的复杂文档信息抽取和理解的能力。

图片

欢迎开发者到飞桨星河社区体验PP-ChatOCRv4的能力:

https://aistudio.baidu.com/community/app/518493/webUI

04

实际测试

① PP-OCRv5官方说单模型可以解决5种文本类型,而且支持手写,那我们干脆直接测试五种文本的手写好了,确实没毛病,精准度非常棒,而且响应速度很快!

日文手写:

图片

英文手写:

图片

简体中文手写:

图片

繁体中文手写:

图片

拼音手写

图片

结论:确实如官方所言,能力比上一代强大太多,准确率也高不少。

② PP-StructureV3文档解析能力,其实我一直比较关注复杂版面的解析问题,毕竟常规版面的解析,现在大模型处理也不错,并且也有一些开源方案可以满足,试了几张,一个字,绝!

原图:

图片

结果:

图片

这张图中可以明确看到,不仅所有内容都识别对,关键是阅读顺序也都没啥问题,右侧下边的内容,其他方案基本上都会排序错误。

为了验证 PP-StructureV是否能处理更复杂的文档,我们直接上了报纸,以人民日报的两张报纸为例,这个阅读顺序大家跟我一起震惊下吧:

图片

尤其是 79-80 的那块,简直是神之一笔,我想当前商业方案也无法搞定。

图片

这张图效果过于炸裂,简直可以封神,大家可以关注下从88到89的那个跳跃,现在的商业版也搞不定吧?

几张demo图测试下来,大受震撼,大家可以在官方demo中体验下,不能光我一个人震撼。PP-StructureV3简直是大模型应用的神器,我不能让关注我公众号的朋友们还不知道这个事情,大家都给我用起来!能白嫖的绝对不花钱!!

开源地址:https://github.com/PaddlePaddle/PaddleOCR

技术交流:扫描下方二维码,加入 PaddleOCR 开源技术交流群,探索更多技术课程 

图片
#OCR #飞桨 #开源神器

没有评论:

发表评论

多领域SOTA诞生!Vid2World:打通视频扩散到世界模型的“任督二脉”|清华、重大

论文链接:https://arxiv.org/pdf/2505.14357 项目链接:https://kni 论文链接:https://arxiv.org/pdf/2505.14357  项目链接:https://knightnemo.github.io/vid2world/...