2024年6月30日星期日

更新后爆涨1500%——OmniParse数据分析清洗的神器


OmniParse,

今天推荐一款数据处理神器,
将任何非结构化数据转换为结构化,
网站文档图像视频都能完成清洗处理,
转化为适用于AI大模型LLM的训练数据,
为微调或者RAG而生,
注:RAG是一种结合检索技术和生成式模型的方法,能够根据用户查询从大规模知识库中检索相关信息,并生成基于检索结果的高质量回答。


在线可通过colab免费使用。

网站数据处理:
输入你想要获取数据的网站:
比如金数据官方网站,
https://jinshuju.net/
一键可生成多种格式的内容,
包括markdown、网页图片和json等等




图片数据处理:
一键上传图片,
支持多种数据清洗或者分析功能,



还能当图片识别的免费平替:


图片显示了一位长着长长的棕色头发的女人,穿着一件黑色连衣裙和一条项链。她的脸是图片的焦点,她的眼睛直接看着观众,嘴唇微微张开。她的头发造型围绕着她的脸,给她带来了神秘而迷人的外观。


视频数据处理
支持免费的视频-文本转录,
速度快,识别精准:


文档类数据处理
上传一个机器人的产品概述PDF,
原文长这样子:

一键解析后得到:
文字:


图片合集:


Json格式



这个工具非常适合需要微调垂直类大模型的人,
它不仅简化了数据预处理流程,
还为构建和优化定制化大模型提供了强有力的支持,
支持更方便高效做RAG增强式检索。

有需要的可以去体验下,
谢谢阅读。


没有评论:

发表评论

阿里开源CoPaw桌面AI助手:免费,自动操作电脑,打通钉钉飞书

阿里开源桌面AI助手CoPaw,免费使用,无需代码即可让电脑自动操作钉钉、飞书等软件,支持本地部署保障数据安全,适合打工人和企业提升办公效率。一键下载,告别重复劳动。 Tags: 桌面AI 自动化工具 办公自动化 开源软件 钉钉飞书 阿...