2025年3月29日星期六

olmOCR:重塑PDF文本处理,让语言模型更智能、更强大!




olmOCR,这是一个高性能工具包,旨在将 PDF 和文档图像转换为干净、结构化的纯文本。 olmOCR的主要特点包括:

  • 高精度文本提取:经过大量多样化PDF内容的训练,采用独特的提示技术,显著提高文本识别的准确性,减少误识别和幻觉现象。
  • 复杂文档处理能力:不仅支持普通文本,还能准确识别和处理表格、公式、手写内容等复杂元素。
  • 高效大规模处理:利用SGLang优化推理管道,可在本地GPU上运行,或通过AWS S3实现多节点并行处理,每百万页文档的处理成本仅190美元左右,适合处理海量文档。
  • 开源与可扩展性:采用Apache 2.0许可,所有组件,包括模型权重、数据和训练代码,均已开源,方便用户二次开发与定制。

相关链接

  • 代码地址:https://github.com/allenai/olmocr
  • 演示地址:https://olmocr.allenai.org/

使用视觉语言模型高效提取 PDF 文本

从预训练到推理,语言模型 (LM) 都对纯文本数据进行操作。无论是在对数万亿个 token 进行训练时,还是在为数据密集型 AI 应用程序提供服务时,文本的质量都至关重要。嘈杂的文本会导致训练不稳定和模型性能下降,或者在完成用户请求时输出效果不佳。

然而,并非所有 LM 使用的数据都以易于解析的格式(例如网页)提供。事实上,对于许多领域来说,有价值的信息都存储在电子文档文件中,例如 PDF。这些格式带来了独特的挑战,因为它们旨在在固定大小的页面上呈现内容,而不是保留逻辑文本结构。以 PDF 为例:这种格式将文本存储为二进制字符编码序列,以及它们在页面上的位置和格式。这种格式虽然高效,但很难恢复所有文本单元(如标题、段落、表格和公式)并按正确顺序排列它们。

为了帮助处理电子文档,我们推出了olmOCR,这是一款高性能工具包,旨在将 PDF 和文档图像转换为干净、结构化的纯文本。olmOCR 有何独特之处?

  • 性能:我们针对从各种 PDF 中抽样的250,000 页对 olmOCR 进行了微调。有些是数字化的,而有些则是公共领域书籍的扫描副本。这确保了 olmoOCR 能够准确地从各种文档中提取文本。
  • 经济高效:olmoOCR 工具包可以处理一百万个 PDF 页面,费用约为 190 美元,olmOCR 的成本大约仅为使用 GPT-4o API 以批处理模式处理相同数量页面所需费用的 1/32。
  • Markdown 输出:olmOCR 以 Markdown 格式输出文本,易于解析和处理。它可以处理方程式、表格和手写内容,即使对于最复杂的多列文档布局,也能以正确的阅读顺序进行处理。
  • 包含的组件:olmOCR 是完全优化的管道,可与 SGLang 和 vLLM 推理引擎配合使用。它可以高效地从一个 GPU 扩展到数百个 GPU,并包含启发式算法来处理常见的解析失败和元数据错误。
  • 完全开源:olmOCR 建立在Qwen2-VL-7B-Instruct之上。我们发布该工具包的所有组件:模型权重、微调数据集、训练和推理代码。

看看 olmoOCR与其他领先的文档提取工具相比如何,并进一步了解我们如何构建它。一旦您准备好试用它,请访问我们的GitHub 存储库,在您自己的项目中使用 olmOCR。

交互式工具比较

比较 olmOCR 与其他领先的文档提取工具在样本文档上的表现。使用下面的选项卡查看不同的输出并了解处理质量的主要差异。

构建 olmOCR

为了获得用于训练 olmOCR 的高质量数据,我们开发了一种称为文档锚定的技术。此方法利用 PDF 文件中存在的任何文本和元数据来提高提取文本的质量。图 1:文档锚定在典型页面上的工作方式示例。相关图像位置和文本块被提取、连接并插入到模型提示中。当提示 VLM 获取文档的纯文本版本时,锚定文本将与页面的光栅化图像结合使用。 我们使用文档锚定技术,用 GPT-4o 标记了 25 万页。我们结合使用了从网络上抓取的可公开访问的 PDF 和 Internet Archive 扫描的公共领域书籍。数据集多种多样,其中 60% 为学术论文,12% 为小册子,11% 为法律文件,6% 为图表,5% 为幻灯片,4% 为其他文档类型。

为了训练模型本身,我们对 Qwen2-VL-7B-Instruct 检查点进行了微调。我们使用 SGLang 精心优化了大规模批处理的推理管道,使 olmOCR 能够以仅 190 美元的价格转换一百万个 PDF 页面 - 大约是使用 GPT-4o API 成本的 1/32。与其他流行的 OCR 工具相比,我们的结果不仅显示出显着的成本节省,而且在人工评估方面也表现出色。

图 2:olmOCR 与其他流行工具的 ELO 排名。 我们通过将其输出与其他流行的 PDF 提取工具(Marker、MinerU和GOT-OCR 2.0)进行比较来评估 olmOCR 。我们收集了 11 位研究人员的成对判断。我们抽样了 2,017 个 PDF 并收集了 452 个有意义的比较,计算了 ELO 评分以量化性能。olmOCR 的 ELO 得分超过 1800,远远超过所有竞争对手。当直接与其他工具进行比较时,olmOCR 在与 Marker 的比较中占 61.3%,与 GOT-OCR 的比较中占 58.6%,与 MinerU 的比较中占 71.4%,这证明了其生成干净、结构良好的文本的卓越能力。

运行

第一个 olmOCR 版本包括一个演示、模型权重、我们的微调数据集、一份简短的技术报告,以及最重要的一个高效的推理管道。

安装要求

最新的 NVIDIA GPU(在 RTX 4090、L40S、A100、H100 上测试),至少有 20 GB 的 GPU RAM, 30GB 可用磁盘空间, 您将需要安装 poppler-utils 和 其他字体来呈现 PDF 图像。 然后,在具有 GPU 的机器上,只需运行:

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf


感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~


没有评论:

发表评论

牛掰!一键云部属开源 Coze Studio,让企业服务智能体24小时不停歇

舰长测试下来部署时间不等3~10分钟就可以完成一个Coze服务器的部署,而且一直到部署成功只需要点几次鼠标。 点击上方卡片关注 不要错过精彩文章 🎉 读完这篇文章,别忘记给舰长点一个关注!舰长的智能体搭建文章,不仅是节点的构建,也有思路的分享。智能体搭建最重要的就是思路。最...