AI I024: 推荐：一个为「高性能知识库而生」的文档解析产品（内附免费额度）！

推荐阅读：

大家好！我是老码，喜欢搜寻一些既好玩又好用还很有趣的项目，对于那些喜欢我分享内容的朋友，我想说如果你们愿意的话，可以帮忙点一下关注和在看哟，非常感谢大家的支持！

在AI应用极速发展的当下，LLM（大语言模型）与RAG（检索增强生成）系统已成为构建智能问答、知识管理等高阶应用的核心引擎。

然而，许多团队在项目落地时遭遇了现实的挑战：模型的实际表现——无论是回答的准确性、相关性，还是系统整体的响应效率——往往难以达到预期。究其根源，一个常被低估的关键环节浮出水面：文档解析的质量。

核心问题在于输入数据的"可理解性"。现实世界中的知识载体——PDF报告、扫描文件、图文结合的技术文档——本质上是高度非结构化的。传统OCR工具就像个"近视的搬运工"，只能机械地把图像上的文字"抠"下来，却看不懂文档的内在"蓝图"：标题的层级关系迷失了，段落被拆得七零八落，复杂的表格像被撕碎的拼图，跨页的内容彻底断了联系，图表更是成了没有注释的"孤岛"。当这种缺乏结构、语义断裂的"原料"被直接喂入RAG系统时，后果是显而易见的：

检索效率低下：系统难以精准定位包含答案的关键片段，在海量碎片中"大海捞针"，耗时费力。
答案准确性受损：上下文缺失或错位，导致模型"理解偏差"，生成跑题甚至错误的回答。
信息完整性打折：表格数据混乱、跨页信息断裂、图表意义不明，关键细节丢失。

可以说，文档解析的质量，直接锁定了RAG系统乃至整个AI应用效果的上限。优质的解析不是简单的文字提取，而是对文档内容进行深度理解与结构化重建的过程。这正是TextIn xParse智能文档解析引擎致力于解决的痛点。

TextIn xParse区别于传统OCR，它的目标是将原始文档转化为机器和LLM真正"理解"的、高度结构化的数据，以清晰、标准的Markdown或JSON格式输出，为后续的RAG分块策略、高效向量检索以及大模型的精准生成提供坚实、可靠的"高质量燃料"，铺设一条直达核心知识点的"信息快车道"。

这篇文章，我们将从功能特性、实战效果出发，实测TextIn xParse的解析能力，并结合实例代码、JSON输出样例，全面解读它为何会成为RAG系统和AI应用的首选工具。

项目介绍

TextIn xParse文档解析是一款大模型友好的解析工具，能够精准还原pdf、word、excel、ppt、图片等十余种格式的非结构化文件，将其快速转换为Markdown或JSON格式返回，同时包含精确的页面元素和坐标信息。

支持识别文本、图像、表格、公式、手写体、表单字段、页眉页脚等各种元素，并支持印章、二维码、条形码等子类型，为LLM推理、训练输入高质量数据，帮助完成数据清洗和文档问答任务，适用于各类AI应用程序，如知识库、RAG、Agent或其他自定义工作流程。

核心功能

多种版面元素高精度解析：精准识别标题、公式、图表、手写体、印章、页眉页脚、跨页段落，实现高精度坐标还原，并捕捉版面元素间的语义关系，提升大模型应用表现。
行业领先的表格识别能力：轻松解决合并单元格、跨页表格、无线表格、密集表格等识别难题。
阅读顺序还原准：理解、还原文档结构和元素排列，确保阅读顺序的准确性，支持多栏布局的论文、年报、业务报告等。
自研文档树引擎：基于语义提取段落embedding值，预测标题层级关系，通过构造文档树提高检索召回效果。
支持多种扫描内容：能良好处理各类图片与扫描文档，包括手机照片、截屏等内容。
支持多种语言：支持简体中文/繁体中文/英文/数字/西欧主流语言/东欧主流语言等共50+种语言。
集成强大的图像处理能力：文件带水印、图片有弯曲，都能一键解决，排除图像质量干扰。
开发者友好：提供清晰的API文档和灵活的集成方式，包括MCP Server、Coze、Dify插件，支持FastGPT、CherryStudio、Cursor等主流平台。

案例演示

案例1：密集少线表格识别

前端支持选中表格并在原图上显示模型预测的单元格，如图中左上表格效果。

案例2：跨页表格合并、页眉页脚识别

案例3：图表识别

对于肉眼读取困难的图表，TextIn xParse也会通过精确测量给出预估数值，帮助挖掘更多有效数据信息，完成分析及预测工作。

案例4：标题层级识别

案例5：多栏版式还原阅读顺序

案例6：跨页段落内容块合并

案例7：弯折图片识别

使用方法

访问TextIn官网主页进行注册。

方法一：在线使用

TextIn提供了一个在线的Web平台，可以通过浏览器直接使用，无需编写任何代码即可快速试用API并感受效果。

地址：https://cc.co/16YSXp

访问产品地址注册，点击"在线使用"。

我们可以点击预存的示例文档，也可以自行上传文档（如发票、表格或报告等）在右侧快速查看解析结果并与原文档进行对照；右上栏切换查看JSON格式输出以及特定元素解析结果，同时也支持对解析结果进行编辑、复制、导出等操作；点击左侧"参数配置"可自定义参数。

方法二：API调用

首先前往"账号与开发者信息"，获取 x-ti-app-id 和 x-ti-secret-code。

前置准备

import jsonimport requestsclass OCRClient:    def __init__(self, app_id: str, secret_code: str):        self.app_id = app_id        self.secret_code = secret_code    def recognize(self, file_content: bytes, options: dict) -> str:        # 构建请求参数        params = {}        for key, value in options.items():            params[key] = str(value)        # 设置请求头        headers = {            "x-ti-app-id": self.app_id,            "x-ti-secret-code": self.secret_code,            # 方式一：读取本地文件            "Content-Type": "application/octet-stream"            # 方式二：使用URL方式            # "Content-Type": "text/plain"        }        # 发送请求        response = requests.post(            f"https://api.textin.com/ai/service/v1/pdf_to_markdown",            params=params,            headers=headers,            data=file_content        )        # 检查响应状态        response.raise_for_status()        return response.textdef main():    # 创建客户端实例    client = OCRClient("你的x-ti-app-id", "你的x-ti-secret-code")        # 插入下面的示例代码if __name__ == "__main__":    main()

后续步骤可根据实际使用场景在main函数中插入代码。

解析单个本地文件并保存结果

# 在main函数中插入    # 读取本地文件    with open("你的文件.pdf", "rb") as f:        file_content = f.read()    # 设置URL参数，可按需设置，这里已为你默认设置了一些参数    options = dict(        dpi=144,        get_image="objects",        markdown_details=1,        page_count=10,        parse_mode="auto",        table_flavor="html",    )    try:        response = client.recognize(file_content, options)        # 保存完整的JSON响应到result.json文件        with open("result.json", "w", encoding="utf-8") as f:            f.write(response)        # 解析JSON响应以提取markdown内容        json_response = json.loads(response)        if "result" in json_response and "markdown" in json_response["result"]:            markdown_content = json_response["result"]["markdown"]            with open("result.md", "w", encoding="utf-8") as f:                f.write(markdown_content)        print(response)    except Exception as e:        print(f"Error: {e}")

解析多个本地文件并保存结果至指定目录

# 在main函数中插入    # 读取本地文件夹    input_dir = "./tmp"  # 你可以修改为自己的文件夹    output_dir = "./output"  # 输出结果的文件夹        import os    os.makedirs(output_dir, exist_ok=True)    # 支持的文件类型    exts = (".pdf",".png",".jpg",".jpeg",".bmp",".tiff",".webp",".doc",".docx",".html",".mhtml",".xls",".xlsx",".csv",".ppt",".pptx",".txt")    files = [f for f in os.listdir(input_dir) if f.lower().endswith(exts)]    # 设置URL参数，可按需设置，这里已为你默认设置了一些参数    options = dict(        dpi=144,        get_image="objects",        markdown_details=1,        page_count=10,        parse_mode="auto",        table_flavor="html",    )    #循环处理    for filename in files:        file_path = os.path.join(input_dir, filename)        with open(file_path, "rb") as f:            file_content = f.read()        try:            response = client.recognize(file_content, options)            base_name = os.path.splitext(filename)[0]            # 保存JSON            with open(os.path.join(output_dir, f"{base_name}.json"), "w", encoding="utf-8") as fw:                fw.write(response)            # 保存Markdown            json_response = json.loads(response)            if "result" in json_response and "markdown" in json_response["result"]:                markdown_content = json_response["result"]["markdown"]                with open(os.path.join(output_dir, f"{base_name}.md"), "w", encoding="utf-8") as fw:                    fw.write(markdown_content)            print(f"{filename} 处理完成")        except Exception as e:            print(f"{filename} 处理出错: {e}")