2024年6月30日星期日

更新后爆涨1500%——OmniParse数据分析清洗的神器


OmniParse,

今天推荐一款数据处理神器,
将任何非结构化数据转换为结构化,
网站文档图像视频都能完成清洗处理,
转化为适用于AI大模型LLM的训练数据,
为微调或者RAG而生,
注:RAG是一种结合检索技术和生成式模型的方法,能够根据用户查询从大规模知识库中检索相关信息,并生成基于检索结果的高质量回答。


在线可通过colab免费使用。

网站数据处理:
输入你想要获取数据的网站:
比如金数据官方网站,
https://jinshuju.net/
一键可生成多种格式的内容,
包括markdown、网页图片和json等等




图片数据处理:
一键上传图片,
支持多种数据清洗或者分析功能,



还能当图片识别的免费平替:


图片显示了一位长着长长的棕色头发的女人,穿着一件黑色连衣裙和一条项链。她的脸是图片的焦点,她的眼睛直接看着观众,嘴唇微微张开。她的头发造型围绕着她的脸,给她带来了神秘而迷人的外观。


视频数据处理
支持免费的视频-文本转录,
速度快,识别精准:


文档类数据处理
上传一个机器人的产品概述PDF,
原文长这样子:

一键解析后得到:
文字:


图片合集:


Json格式



这个工具非常适合需要微调垂直类大模型的人,
它不仅简化了数据预处理流程,
还为构建和优化定制化大模型提供了强有力的支持,
支持更方便高效做RAG增强式检索。

有需要的可以去体验下,
谢谢阅读。


没有评论:

发表评论

深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星

点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 转载自:新智元 如有侵权,联系删稿 就在今天凌晨,备受全球期待的阿里新一代通义千问模型Qwen3开源! 一经问世,它立刻登顶全球最强开源模型王座。 它...