laion数据集介绍及下载

laion数据集介绍及下载

背景:

最近想要探究stable diffusion训练集laion数据集,记录所收获的

一. laion的介绍

laion是一个大型的文生图数据集,官方网址为https://laion.ai/,它有很多的子集,比如laion-400M,laion-coco等等。

1. 全集laion-5B

论文介绍: LAION-5B: An open large-scale dataset for training next generation image-text models
由58.5亿个CLIP过滤的图像-文本对组成,其中包含23.2亿的英语,22.6亿的样本来自100多种其他语言,及12.7亿的未知样本

2. laion-400M

大概10TB,有专门的论文介绍(LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs)是首个大规模图文多模态数据集,并且保存了embedding和kNN索引,
原先有一个进行检索的网站 https://rom1504.github.io/clip-retrieval/但是现在功能失效了
另一个网站https://haveibeentrained.com/可以文本去搜索laion-5B的相关图片,就是搜索比较慢,这个网站本身是用于一些人来检测自己的图片是否被用来训练,防止侵权

3. LAION-Aesthetics

官方介绍
LAION 5B 中具有高视觉质量的多个子集,下面是根据美学分数分类的子集
在这里插入图片描述

二. laion-400m的下载

1. 背景:

Laion团队放在在huggingface的数据集已经404了,所以得找资源下载。 现在我收集到的主要分两种,包含全部数据集图片文本与url集合的parquet文件和包含部分数据集的图片及文本的webdataset文件

2. parquet文件

重点以下的所有网站保存的都是图片url的集合,而不是图片与文本本身,而很多链接都失效了。因此实际下载下来的图片可能很少

  1. 在此链接下载img2dataset,该网站有很多文生图数据集的自动化下载的脚本,值得收藏
  2. https://deploy.laion.ai/8f83b608504d46bb81708ec86e912220/
    数据集展示,主要包含数据集,embedding,indics
    在这里插入图片描述
    下图为部分数据集文件的展示
    可以看到dataset里的parquet文件本质上是一个列表的集合,每一行代表着一张图片的信息,主要包含图片对应的URL和TEXT
    part-00002-5b54c5d5-bbcf-484d-a2ce-0d6f73df1a36-c000.snappy.parquet
  3. https://academictorrents.com/details/34b94abbcefef5a240358b9acd7920c8b675aacc/tech&filelist=1?stats=True(没实际操作过,应该跟1差不多)
  4. https://lightning.ai/lightning-ai/studios/download-stream-400m-images-text(同上)
  5. https://openxlab.org.cn/datasets/

3. webdataset

在huggingface网站上 搜索laion,名字包含webdataset就是包含图片原件的数据集

### 安装和使用LAION-2B数据集指南 对于希望安装并利用LAION-2B数据集的研究人员来说,了解该过程涉及的具体步骤至关重要。由于LAION-2B是一个大规模的数据集合,通常用于训练机器学习模型特别是那些专注于图像识别的任务,因此其处理方式与其他较小规模的数据集有所不同。 #### 准备工作环境 为了有效地操作LAION-2B数据集,建议先设置好适当的工作环境。这包括但不限于确保操作系统已更新至最新版本以及必要的软件包已经就绪。服务器上已有Java 8的安装[^1],这对于某些依赖于Java的应用程序可能是有用的,但对于大多数现代Python库而言并非必需。 针对LAION-2B这类大型数据集的操作,更常见的是通过Python及其生态系统来完成。如果尚未安装JupyterLab,则可以通过pip工具轻松实现这一目标: ```bash pip3 install jupyterlab ``` 启动JupyterLab服务以便后续可以在浏览器端进行交互式编程会话: ```bash jupyter-lab http://localhost:8888/lab ``` 上述命令将开启本地实验室界面供用户探索和开发基于Python脚本或笔记本的形式[^2]。 #### 获取LAION-2B数据集 LAION-2B数据集本身并不容易直接下载到个人计算机上,因为它的体积非常庞大(超过数百万张图片)。官方推荐的方式是从公开可用的位置按需加载部分子集或者借助云存储解决方案如AWS S3桶获取特定分区的内容。 具体方法如下: 1. 注册并登录到提供LAION-2B访问权限的服务平台; 2. 浏览文档找到适合自己的分发渠道链接地址; 3. 使用API密钥或者其他认证机制请求所需资源片段; 4. 将接收到的数据流解析成可读取文件格式保存下来; 请注意,在实际应用过程中可能还需要考虑版权归属问题及合理使用的范围界定。 #### 数据预处理与清洗 一旦获得了LAION-2B的部分样本之后,下一步就是对其进行初步清理和转换以适应具体的项目需求。常见的任务有去除低质量条目、调整分辨率大小、标注类别标签等。这些都可以依靠强大的开源框架比如TensorFlow Datasets, PyTorch Vision等辅助完成。 #### 开始实验 最后一步就是在准备好的环境中运行各种算法测试性能表现了。无论是构建卷积神经网络(CNNs),还是尝试最新的自监督学习技术,丰富的案例研究都能帮助加速进展。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值