3K star！为RAG而生的数据清洗神器

最新推荐文章于 2024-08-14 23:30:40 发布

黑帽子唐哥

最新推荐文章于 2024-08-14 23:30:40 发布

阅读量394

点赞数 22

文章标签：人工智能学习 AIGC pdf

本文链接：https://blog.csdn.net/weixin_59191169/article/details/141191425

版权

现在的AI时代，人工智能和大模型的能力很大程度上依赖于数据的质量，但是数据具有不同的形状和大小，因此处理数据非常具有挑战性。

今天我们分享一个开源项目，它为微调或者RAG而生，将任何非结构化数据转换为结构化，它就是：OmniParse

在这里插入图片描述

OmniParse 是什么

OmniParse 是一个平台，它可以提取和解析任何非结构化数据，将其转换为针对 GenAI (LLM) 应用程序优化的结构化、可操作数据。无论您处理的是文档、表格、图像、视频、音频文件还是网页，OmniParse 都可以将您的数据准备得干净、结构化，并可用于 RAG、微调等 AI 应用程序

在这里插入图片描述

以下是目前支持处理的文件类型：

在这里插入图片描述

安装和使用

源码安装

目前OmniParse源码安装仅适用于基于 Linux 的系统。这是由于某些依赖项和系统特定配置与 Windows 或 macOS 不兼容。

git clone <https://github.com/adithya-s-k/omniparse>
cd omniparse

创建虚拟环境：

conda create --n omniparse-venv python=3.10
conda activate omniparse-venv

安装依赖项：

poetry install
# or
pip install -e .
# or
pip install -r pyproject.toml

docker安装

也可以通过docker来使用OmniParse

docker build -t omniparse .
# if you are running on a gpu
docker run --gpus all -p 8000:8000 omniparse
# else
docker run -p 8000:8000 omniparse

运行服务

#运行服务器：
python server.py --host 0.0.0.0 --port 8000 --documents --media --web

#--documents：加载所有帮助您解析和提取文档的模型（Surya OCR系列模型和Florence-2）。
#--media：加载Whisper模型来转录音频和视频文件。
#--web：设置selenium爬虫。

启动后会提供一个API服务，内容可以参考以下：

在这里插入图片描述

执行示例

以下是执行文档解析的例子，可以解析 PDF、PowerPoint 或 Word 文档。

#Curl 命令：
curl -X POST -F "file=@/path/to/document" <http://localhost:8000/parse_document>

在这里插入图片描述

解析图像文件（PNG、JPEG、JPG、TIFF、WEBP）。

#Curl 命令：

curl -X POST -F "file=@/path/to/image.jpg" <http://localhost:8000/parse_media/image>

产品特点

✅ 完全本地，无需外部 API

✅ 适合 T4 GPU

✅ 支持 ~20 种文件类型

✅ 将文档、多媒体和网页转换为高质量的结构化 markdown

✅ 表格提取、图像提取/字幕、音频/视频转录、网页抓取

✅ 使用 Docker 和 Skypilot 轻松部署

✅ Colab 友好

✅ 由 Gradio 提供支持的交互式 UI

总结

OmniParse 旨在成为一个摄取/解析平台，您可以在其中摄取任何类型的数据，例如文档、图像、音频、视频和 Web 内容，并获得最结构化、最可操作且对 GenAI (LLM) 友好的输出。目前来看项目的思路的实用性很不错，当然目前项目在使用上也有一些不完善，比如它擅长解析英语，但对于中文等语言可能会有困难，另外对于PDF中公式转LaTeX会有困难，具体的可以参考项目给出的信息。

在这里插入图片描述

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）
在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

黑帽子唐哥

关注

22
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
3K star！为RAG而生的数据清洗神器

OmniParse 旨在成为一个摄取/解析平台，您可以在其中摄取任何类型的数据，例如文档、图像、音频、视频和 Web 内容，并获得最结构化、最可操作且对 GenAI (LLM) 友好的输出。目前来看项目的思路的实用性很不错，当然目前项目在使用上也有一些不完善，比如它擅长解析英语，但对于中文等语言可能会有困难，另外对于PDF中公式转LaTeX会有困难，具体的可以参考项目给出的信息。
复制链接

扫一扫