laion数据集介绍及下载

柳小覌

已于 2024-08-27 22:02:00 修改

阅读量4.6k

点赞数 24

文章标签：计算机视觉人工智能 AI作画 AIGC

于 2024-08-27 21:59:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45440780/article/details/140127764

版权

laion数据集介绍及下载

背景：

最近想要探究stable diffusion训练集laion数据集，记录所收获的

一. laion的介绍

laion是一个大型的文生图数据集，官方网址为https://laion.ai/，它有很多的子集，比如laion-400M，laion-coco等等。

1. 全集laion-5B

论文介绍： LAION-5B: An open large-scale dataset for training next generation image-text models
由58.5亿个CLIP过滤的图像-文本对组成，其中包含23.2亿的英语，22.6亿的样本来自100多种其他语言，及12.7亿的未知样本

2. laion-400M

大概10TB，有专门的论文介绍（LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs）是首个大规模图文多模态数据集，并且保存了embedding和kNN索引，
原先有一个进行检索的网站 https://rom1504.github.io/clip-retrieval/但是现在功能失效了
另一个网站https://haveibeentrained.com/可以文本去搜索laion-5B的相关图片，就是搜索比较慢，这个网站本身是用于一些人来检测自己的图片是否被用来训练，防止侵权

3. LAION-Aesthetics

官方介绍
LAION 5B 中具有高视觉质量的多个子集，下面是根据美学分数分类的子集
在这里插入图片描述

二. laion-400m的下载

1. 背景：

Laion团队放在在huggingface的数据集已经404了，所以得找资源下载。现在我收集到的主要分两种，包含全部数据集图片文本与url集合的parquet文件和包含部分数据集的图片及文本的webdataset文件

2. parquet文件

重点以下的所有网站保存的都是图片url的集合，而不是图片与文本本身，而很多链接都失效了。因此实际下载下来的图片可能很少

在此链接下载img2dataset，该网站有很多文生图数据集的自动化下载的脚本，值得收藏
https://deploy.laion.ai/8f83b608504d46bb81708ec86e912220/
数据集展示，主要包含数据集，embedding，indics

下图为部分数据集文件的展示
可以看到dataset里的parquet文件本质上是一个列表的集合，每一行代表着一张图片的信息，主要包含图片对应的URL和TEXT
https://academictorrents.com/details/34b94abbcefef5a240358b9acd7920c8b675aacc/tech&filelist=1?stats=True（没实际操作过，应该跟1差不多）
https://lightning.ai/lightning-ai/studios/download-stream-400m-images-text（同上）
https://openxlab.org.cn/datasets/

3. webdataset

在huggingface网站上搜索laion，名字包含webdataset就是包含图片原件的数据集

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。