laion数据集介绍及下载
背景:
最近想要探究stable diffusion训练集laion数据集,记录所收获的
一. laion的介绍
laion是一个大型的文生图数据集,官方网址为https://laion.ai/
,它有很多的子集,比如laion-400M,laion-coco等等。
1. 全集laion-5B
论文介绍: LAION-5B: An open large-scale dataset for training next generation image-text models
由58.5亿个CLIP过滤的图像-文本对组成,其中包含23.2亿的英语,22.6亿的样本来自100多种其他语言,及12.7亿的未知样本
2. laion-400M
大概10TB,有专门的论文介绍(LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs)是首个大规模图文多模态数据集,并且保存了embedding和kNN索引,
原先有一个进行检索的网站 https://rom1504.github.io/clip-retrieval/
但是现在功能失效了
另一个网站https://haveibeentrained.com/
可以文本去搜索laion-5B的相关图片,就是搜索比较慢,这个网站本身是用于一些人来检测自己的图片是否被用来训练,防止侵权
3. LAION-Aesthetics
官方介绍
LAION 5B 中具有高视觉质量的多个子集,下面是根据美学分数分类的子集
二. laion-400m的下载
1. 背景:
Laion团队放在在huggingface的数据集已经404了,所以得找资源下载。 现在我收集到的主要分两种,包含全部数据集图片文本与url集合的parquet文件和包含部分数据集的图片及文本的webdataset文件
2. parquet文件
重点以下的所有网站保存的都是图片url的集合,而不是图片与文本本身,而很多链接都失效了。因此实际下载下来的图片可能很少
- 在此链接下载img2dataset,该网站有很多文生图数据集的自动化下载的脚本,值得收藏
https://deploy.laion.ai/8f83b608504d46bb81708ec86e912220/
数据集展示,主要包含数据集,embedding,indics
下图为部分数据集文件的展示
可以看到dataset里的parquet文件本质上是一个列表的集合,每一行代表着一张图片的信息,主要包含图片对应的URL和TEXT
https://academictorrents.com/details/34b94abbcefef5a240358b9acd7920c8b675aacc/tech&filelist=1?stats=True
(没实际操作过,应该跟1差不多)https://lightning.ai/lightning-ai/studios/download-stream-400m-images-text
(同上)https://openxlab.org.cn/datasets/
3. webdataset
在huggingface网站上 搜索laion,名字包含webdataset就是包含图片原件的数据集