机器学习和数据科学中常用的公开数据集(含计算机视觉最全数据集汇总)

本文列举了机器学习和数据科学中常用的数据集,包括一般数据集、住房数据集、地理数据集等。其中,重点介绍了计算机视觉数据集,如xView、ImageNet、Kinetics-700等。此外,还提到了自然语言处理、自动驾驶、临床数据和推荐系统等领域的重要数据集。这些数据集可供研究人员和实践者用于训练模型、进行数据分析和实验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据集查找器

Google Dataset Search:与Google Scholar的工作方式类似,Dataset Search 可以让你在任何托管的地方找到数据集,无论是出版商的网站,还是数字图书馆,又或者是一个作者的网页。它是一个非凡的数据集查找器,包含了超过2500万个数据集。

  • https://toolbox.google.com/datasetsearch

Kaggle:Kaggle提供了一个庞大的数据集容器,对于热衷于Kaggle的专家来说,数据集是足够了的。

  • https://www.kaggle.com/

UCI机器学习库:UCI的机器学习库为开源数据集提供了最新的资源。

  • http://mlr.cs.umass.edu/ml/

VisualData:按类别搜索计算机视觉数据集;它允许搜索查询。

  • https://www.visualdata.io/

CMU库:通过CMU收集的Wang Huajin Wang可以用来发现高质量的数据集。

  • https://guides.library.cmu.edu/machine-learning/datasets

一般数据集
住房数据集

波士顿住房数据集:包含了美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获取的,在许多文献中被广泛用于对算法进行基准测试。

  • https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

地理数据集

Google-Landmarks-v2:用于地标识别和检索的数据集。该个数据集包含了来自世界各地的5百万张,包含20万多个地标的图片,这些图片由Wiki Commons社区提供和注释。

  • https://www.kaggle.com/xiuchengwang/python-dataset-download

机器学习数据集:

购物中心客户数据集: 购物中心客户数据集包含了特定城市中访问购物中心的客户信息。数据集由不同的列组成,包括性别、客户id、年龄、年收入和支出分数。它通常用于根据年龄、收入和兴趣对客户进行细分。

  • https://www.kaggle.com/shwetabh123/mall-customers

IRIS数据集:IRIS数据集是一个简单的和适合初学者的数据集,包含了有关花瓣和萼片宽度的信息。数据分为三个类,每个类有50行,它通常用于分类和回归建模。

  • https://archive.ics.uci.edu/ml/datasets/Iris

MNIST数据集:这是一个手写数字的数据集,它包含60000个训练图像和10000个测试图像,是一个适合新手用于实现图像分类的数据集,你可以从0到9对数字进行分类。

  • http://yann.lecun.com/exdb/mnist/

波士顿住房数据集:包含了美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获取的,在许多文献中被广泛用于对算法进行基准测试。

  • https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

假新闻检测数据集:它是一个CSV文件,有7796行和4列。4列分别是:新闻、标题、新闻文本、结果。

  • https://www.kaggle.com/c/fake-news/data

葡萄酒质量数据集:该数据集包含有关葡萄酒的不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值