2024年6月30日星期日

更新后爆涨1500%——OmniParse数据分析清洗的神器


OmniParse,

今天推荐一款数据处理神器,
将任何非结构化数据转换为结构化,
网站文档图像视频都能完成清洗处理,
转化为适用于AI大模型LLM的训练数据,
为微调或者RAG而生,
注:RAG是一种结合检索技术和生成式模型的方法,能够根据用户查询从大规模知识库中检索相关信息,并生成基于检索结果的高质量回答。


在线可通过colab免费使用。

网站数据处理:
输入你想要获取数据的网站:
比如金数据官方网站,
https://jinshuju.net/
一键可生成多种格式的内容,
包括markdown、网页图片和json等等




图片数据处理:
一键上传图片,
支持多种数据清洗或者分析功能,



还能当图片识别的免费平替:


图片显示了一位长着长长的棕色头发的女人,穿着一件黑色连衣裙和一条项链。她的脸是图片的焦点,她的眼睛直接看着观众,嘴唇微微张开。她的头发造型围绕着她的脸,给她带来了神秘而迷人的外观。


视频数据处理
支持免费的视频-文本转录,
速度快,识别精准:


文档类数据处理
上传一个机器人的产品概述PDF,
原文长这样子:

一键解析后得到:
文字:


图片合集:


Json格式



这个工具非常适合需要微调垂直类大模型的人,
它不仅简化了数据预处理流程,
还为构建和优化定制化大模型提供了强有力的支持,
支持更方便高效做RAG增强式检索。

有需要的可以去体验下,
谢谢阅读。


没有评论:

发表评论

火山发布会王炸!豆包Seedance 1。5 Pro实测:吊打万相2。6?

点击上方卡片关注 不要错过精彩文章📌持续更新有关Agent的最新搭建思路和工作流分享,希望能给您带来帮助,点 点击上方卡片关注 不要错过精彩文章 📌 持续更新有关Agent的最新搭建思路和工作流分享,希望能给您带来帮助,点一点上方的🔵蓝色小字关注,你的支持是我最大的动力...