laion数据集介绍及下载

laion数据集介绍及下载

背景:

最近想要探究stable diffusion训练集laion数据集,记录所收获的

一. laion的介绍

laion是一个大型的文生图数据集,官方网址为https://laion.ai/,它有很多的子集,比如laion-400M,laion-coco等等。

1. 全集laion-5B

论文介绍: LAION-5B: An open large-scale dataset for training next generation image-text models
由58.5亿个CLIP过滤的图像-文本对组成,其中包含23.2亿的英语,22.6亿的样本来自100多种其他语言,及12.7亿的未知样本

2. laion-400M

大概10TB,有专门的论文介绍(LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs)是首个大规模图文多模态数据集,并且保存了embedding和kNN索引,
原先有一个进行检索的网站 https://rom1504.github.io/clip-retrieval/但是现在功能失效了
另一个网站https://haveibeentrained.com/可以文本去搜索laion-5B的相关图片,就是搜索比较慢,这个网站本身是用于一些人来检测自己的图片是否被用来训练,防止侵权

3. LAION-Aesthetics

官方介绍
LAION 5B 中具有高视觉质量的多个子集,下面是根据美学分数分类的子集
在这里插入图片描述

二. laion-400m的下载

1. 背景:

Laion团队放在在huggingface的数据集已经404了,所以得找资源下载。 现在我收集到的主要分两种,包含全部数据集图片文本与url集合的parquet文件和包含部分数据集的图片及文本的webdataset文件

2. parquet文件

重点以下的所有网站保存的都是图片url的集合,而不是图片与文本本身,而很多链接都失效了。因此实际下载下来的图片可能很少

  1. 在此链接下载img2dataset,该网站有很多文生图数据集的自动化下载的脚本,值得收藏
  2. https://deploy.laion.ai/8f83b608504d46bb81708ec86e912220/
    数据集展示,主要包含数据集,embedding,indics
    在这里插入图片描述
    下图为部分数据集文件的展示
    可以看到dataset里的parquet文件本质上是一个列表的集合,每一行代表着一张图片的信息,主要包含图片对应的URL和TEXT
    part-00002-5b54c5d5-bbcf-484d-a2ce-0d6f73df1a36-c000.snappy.parquet
  3. https://academictorrents.com/details/34b94abbcefef5a240358b9acd7920c8b675aacc/tech&filelist=1?stats=True(没实际操作过,应该跟1差不多)
  4. https://lightning.ai/lightning-ai/studios/download-stream-400m-images-text(同上)
  5. https://openxlab.org.cn/datasets/

3. webdataset

在huggingface网站上 搜索laion,名字包含webdataset就是包含图片原件的数据集

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值