Multimodal datasets: misogyny, pornography, and malignant stereotypes

本文深度剖析了LAION-400M数据集中的伦理和社会问题,指出其可能包含不适当内容、刻板印象和隐私侵犯。作者强调了大规模多模态数据集收集与使用的责任,呼吁AI社区采取更负责任的策略。

在这里插入图片描述

研究背景: 随着深度学习和计算机视觉的兴起,对于大规模数据集的需求日益增长。这些数据集通常从互联网上收集,用于训练大型机器学习模型。然而,这些数据集的收集和使用引发了关于数据质量、隐私侵犯、偏见和不适当内容的严重担忧。特别是,大型多模态数据集(如图像和文本配对)在训练过程中可能会固化和传播有害的刻板印象和性别、种族偏见。

过去方案和缺点: 过去的数据集收集方法往往依赖于人工标注和筛选,这不仅成本高昂,而且难以扩展到数十亿级别的数据集。为了解决这个问题,一些项目(如CLIP)采用了从互联网上爬取数据的方法,并通过自动化的过滤机制来减少不适当内容。然而,这种方法存在明显的缺点,包括对不适当内容的过滤不彻底、对偏见的固化以及对隐私的侵犯。此外,这些数据集的发布往往缺乏对潜在问题的透明度和责任归属。

本文方案和步骤: 本文对最近发布的LAION-400M数据集进行了初步审计,该数据集是从CommonCrawl数据集中筛选出的图像-替代文本对。作者发现该数据集包含了强奸、色情、恶性刻板印象、种族和民族侮辱以及其他极其有问题的内容。文章提出了对大规模数据集当前状态的担忧,并为AI社区、监管机构、政策制定者和数据主体等各方利益相关者提出了开放性问题。

本文实验和性能: 文章通过定性和定量分析LAION-400M数据集,揭示了其中存在的问题。作者通过搜索界面对数据集进行了查询,发现即使是看似无害的查询也返回了大量不适当的图像结果。此外,作者还对数据集的过滤机制进行了评估,发现CLIP模型在过滤过程中存在偏见,并且0.3的余弦相似度阈值可能导致不适当的样本被错误地保留。文章没有提供具体的性能指标,而是侧重于讨论数据集的伦理和社会影响。

阅读总结报告: 本文对LAION-400M数据集进行了深入的批判性分析,揭示了大规模多模态数据集在收集和使用过程中可能带来的伦理和社会问题。作者强调了数据集可能固化和传播的有害刻板印象和偏见,以及对个人隐私的潜在侵犯。文章提出了一系列开放性问题,呼吁AI社区和相关利益相关者对这些问题进行深入讨论,并寻求更负责任的数据集管理和使用策略。尽管文章没有提供具体的技术解决方案,但它为如何更负责任地处理大规模数据集提供了重要的视角。

AG's News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN AG is a collection of more than 1 million news articles. News articles have been gathered from more than 2000 news sources by ComeToMyHead in more than 1 year of activity. ComeToMyHead is an academic news search engine which has been running since July, 2004. The dataset is provided by the academic comunity for research purposes in data mining (clustering, classification, etc), information retrieval (ranking, search, etc), xml, data compression, data streaming, and any other non-commercial activity. For more information, please refer to the link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html . The AG's news topic classification dataset is constructed by Xiang Zhang (xiang.zhang@nyu.edu) from the dataset above. It is used as a text classification benchmark in the following paper: Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015). DESCRIPTION The AG's news topic classification dataset is constructed by choosing 4 largest classes from the original corpus. Each class contains 30,000 training samples and 1,900 testing samples. The total number of training samples is 120,000 and testing 7,600. The file classes.txt contains a list of classes corresponding to each label. The files train.csv and test.csv contain all the training samples as comma-sparated values. There are 3 columns in them, corresponding to class index (1 to 4), title and description. The title and description are escaped using double quotes ("), and any internal double quote is escaped by 2 double quotes (""). New lines are escaped by a backslash followed with an "n" character, that is "\n".
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值