伴随着大模型与视觉识别技术的迅猛发展,无论是企业还是个人对电子化办公的需求都在持续攀升,围绕 PDF 文档的解析还原能力也正在从 "能用" 向 "好用" 迈进。
在发票报销、合同归档、学术论文整理、复杂表格抽取、竖版古籍提取等众多的实际场景中,我们对于 OCR 产品的 PDF 解析精度、还原效果等也都提出了更高要求。
近年来,PDF 文档解析的开源方案一直在不断涌现且持续迭代,像 MinerU、PaddleOCR、MonkeyOCR、dots.ocr 等开源工具套件,为 "低成本构建实用的 PDF 解析流水线" 提供了可能。
为了对比各个开源 OCR 工具的实际表现差异,我们收集了不同应用场景下多维度测试样本,来对各个开源 OCR 工具的实际使用效果进行对比评测。通过各工具推理效果进行排序对比,力求真实呈现这些工具在实际工作流中的 "可落地性"。
场景测评
当前主流开源 OCR 工具,在常规文字识别场景表现日趋完善,基本能满足办公日常需求。
但面对更贴近企业复杂场景,如图文混排、排版复杂的报纸、包含插图、公式的表格、复杂数学公式、纵向排版的古籍等情况,实际表现如何?
本次评测精心选取五类具挑战性的文档图片,包括报纸、杂志、复杂表格、复杂公式和竖版数据,全面对比分析当前主流工具在真实场景中的表现。
报纸
报纸版面结构复杂,存在密集文本、多级栏目、交错排版、图文混排、横竖混排等情况,对"阅读顺序重建"有较大挑战。
我们选取了《中国教育报》的张报纸版面图像进行测试,在各个开源 OCR 工具的测试结果如下:
综合表现排名:🏅PaddleOCR >🥈MonkeyOCR >🥉MinerU >dots.ocr。
从结果可以看出来,各工具均能准确识别文本信息,但在版面重建的效果上差异巨大:
PaddleOCR 版面结构恢复能力强,可准确定位多栏文章,区分主标题、副标题、栏目信息,重建效果贴近原文;
MonkeyOCR 和 MinerU 在阅读顺序重建方面存在较大问题,另外无法区分主副标题,重建效果一般;
dots.ocr 同样在阅读顺序重建方面存在问题,并且大量多余的换行符导致重建效果较差。
杂志
现代杂志版面艺术化、多样化,由于嵌入式图片、插画的存在导致版面不规整,同时艺术字等的使用也对文本检测与识别有一定影响。
我们从《故事会》和《意林》两本杂志中各选取了一页进行测试,在各个开源 OCR 工具的测试结果如下:
虽然存在艺术字,但各工具在文本识别的准确性上均很高,表现不同的地方仍然在于阅读顺序重建和版面恢复方面。
PaddleOCR 和 dots.ocr 均能准确将文章标题置于开头,符合阅读习惯;
dots.ocr 不能全部准确还原标题格式;
PaddleOCR 更倾向于将作者信息与文章标题放在一起,导致可视化效果上差了一点,但文章插图的尺寸做了适当缩小,算是加分项;
MinerU 和 MonkeyOCR 主要问题是无法准确将标题置于开头,导致阅读顺序错误。
复杂表格
表格是很常见的的文档元素,特别是在金融、科研以及票据等场景更为常见。因为结构复杂、内容丰富,因此同样也是文档解析的高难度场景。
我们选取了较难的三张含有表格的文档图片进行测试,在各个开源 OCR 工具的测试结果如下:
这三张表格的难点在于其中的内容包含公式、插图,在表格结构方面:
在公式方面,PaddleOCR 基本能够准确识别公式内容并使用 LaTeX 表示,而其他三个模型仅能正确识别下脚标等简单公式内容,复杂公式则完全无法识别。
在插图方面,PaddleOCR 能够将单元格中的图片恢复出来,MonkeyOCR 则仅能识别单元格的文本内容,但是 MinerU 和 dots.ocr则无法处理含插图表格,甚至无法还原表格结构。
复杂公式
在理工类学术论文中,公式绝对是绕不过去的元素内容,特别是物理、数学等基础学科经常涉及大量复杂公式。
我们选取了 4 张公式较为密集的文档图像进行测试,在各个开源 OCR 工具的测试结果如下:
dots.ocr 和 MonkeyOCR 识别最精准;
PaddleOCR 在公式内容上识别同样很准确,但小标题前的图标影响了其本文识别;
MinerU同样受到图标的影响造成了文本误识别,但其还出现了公式无法渲染的问题。
竖排书籍
竖排布局在古籍、古文场景中多见,竖排的段落阅读顺序为自右向左,而且往往还涉及到中文繁体字。我们选择了两张含有繁体字的竖排版面图像进行测试,在各个开源OCR工具的测试结果如下:
显然,PaddleOCR 和 dots.ocr 是支持竖排布局的,但 dot.ocr 仍可能出现多余换行符的情况,造成恢复效果不佳。而 MinerU和 MonkeyOCR 看起来并不支持竖排布局。
总结
本次多场景、多维度的系统评测结果如下表所示:
综合来看,PaddleOCR 在当前主流开源 OCR 工具中表现全面领先,其在文本识别精度、复杂表格与公式的还原、结构化输出的准确性、古籍竖排识别能力以及实时处理速度和对极端情况下的鲁棒性等方面均优于众多竞品。
特别是在 "结构化能力"、"版面还原"、"特殊元素识别" 等真实落地高阶场景下,PaddleOCR 展示出显著的优势。
MonkeyOCR 则表现出强大的公式识别能力,可以有效应对复杂学术文档中的公式抽取需求,而 dots.ocr 在某些文本重建场景中也有独特的应用价值。
相对而言,MinerU 的整体表现一般,适用于基本文本识别任务。
当然,评测结果很难完全客观,只有在自己的数据和实际场景中表现好,才是最重要的。
这次的评测只是给那些做大模型应用的开发者一个参考。
如果大家在其他场景里有不一样的体验,也欢迎在评论区一起讨论。
没有评论:
发表评论