AI I024: Mistral 发布 Mistral OCR，号称世界上最好的 OCR 模型！一起来看实际效果！

2025年4月7日星期一

Mistral 发布 Mistral OCR，号称世界上最好的 OCR 模型！一起来看实际效果！

Mistral认知计算实验室推出的革命性OCR解决方案，正在重塑文档智能处理的技术边界。该方案突破传统光学字符识别的平面解析局限，构建起三维认知模型：其自主研发的文档多模态解析引擎，能同步完成视觉元素定位、语义结构解析和知识图谱构建三大任务。针对PDF/图像输入源，系统采用分级注意力机制，首先通过超分辨率重建恢复文档原始排版，继而运用图神经网络解析表格嵌套关系，最终借助跨模态Transformer实现图文语义对齐。

Mistral OCR是一种光学字符识别 API，它为文档理解树立了新标准。与其他模型不同，Mistral OCR 以前所未有的准确性和认知能力理解文档的每个元素——媒体、文本、表格、方程式。它以图像和 PDF 作为输入，并以有序交错的文本和图像形式提取内容。

因此，Mistral OCR 是与以多模式文档（如幻灯片或复杂的 PDF）作为输入的 RAG 系统结合使用的理想模型。

Mistral OCR 已经作为 Le Chat 上数百万用户的默认文档理解模型，并以 1000 页/美元的价格发布 API mistral-ocr-latest（通过批量推理，每美元的页数大约翻了一番）。

亮点

对复杂文档的最新理解
原生多语言和多模式
顶级基准
同级别中速度最快
文档即刻、结构化输出
对于处理高度敏感或机密信息的组织，可选择自行托管

对复杂文档的最新理解

Mistral OCR 擅长理解复杂的文档元素，包括交错图像、数学表达式、表格和高级布局（如 LaTeX 格式）。该模型可以更深入地理解丰富的文档，例如包含图表、图形、方程式和数字的科学论文。

顶级基准

Mistral OCR 在严格的基准测试中始终优于其他领先的 OCR 模型。其在文档分析的多个方面都表现出色，如下所示。我们从文档中提取嵌入图像以及文本。下面比较的其他 LLM 不具备此功能。为了进行公平比较，我们在包含各种出版论文和来自网络的 PDF 的内部"纯文本"测试集上对它们进行了评估；如下所示：

以多种语言为母语

自 Mistral 成立以来，我们一直致力于用我们的模型服务世界，因此我们努力在我们的产品中实现多语言能力。Mistral OCR 将这一目标提升到了一个新水平，能够解析、理解和转录各大洲的数千种脚本、字体和语言。这种多功能性对于处理来自不同语言背景的文档的全球组织以及服务于小众市场的超本地化企业都至关重要。

各语言的基准测试

同级别中速度最快

Mistral OCR 比同类产品中的大多数型号更轻，但性能却比同类产品快得多，单个节点上每分钟可处理多达 2000 页。快速处理文档的能力确保即使在高吞吐量环境中也能持续学习和改进。

文档即刻、结构化输出

Mistral OCR 还引入了使用文档作为提示的功能，从而实现更强大、更精确的指令。此功能允许用户从文档中提取特定信息并将其格式化为结构化输出，例如 JSON。用户可以将提取的输出链接到下游函数调用并构建代理。请参阅此示例笔记本。

可选择自行托管

对于对数据隐私要求严格的组织，Mistral OCR 提供自托管选项。这可确保敏感或机密信息在您自己的基础设施中保持安全，从而符合监管和安全标准。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024