机器学习和数据科学中常用的公开数据集（含计算机视觉最全数据集汇总）

woshicver

于 2020-08-27 22:23:31 发布

阅读量6.3k

点赞数 10

文章标签：机器学习人工智能计算机视觉深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woshicver/article/details/108271669

版权

本文列举了机器学习和数据科学中常用的数据集，包括一般数据集、住房数据集、地理数据集等。其中，重点介绍了计算机视觉数据集，如xView、ImageNet、Kinetics-700等。此外，还提到了自然语言处理、自动驾驶、临床数据和推荐系统等领域的重要数据集。这些数据集可供研究人员和实践者用于训练模型、进行数据分析和实验。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据集查找器

Google Dataset Search：与Google Scholar的工作方式类似，Dataset Search 可以让你在任何托管的地方找到数据集，无论是出版商的网站，还是数字图书馆，又或者是一个作者的网页。它是一个非凡的数据集查找器，包含了超过2500万个数据集。

https://toolbox.google.com/datasetsearch

Kaggle:Kaggle提供了一个庞大的数据集容器，对于热衷于Kaggle的专家来说，数据集是足够了的。

https://www.kaggle.com/

UCI机器学习库：UCI的机器学习库为开源数据集提供了最新的资源。

http://mlr.cs.umass.edu/ml/

VisualData：按类别搜索计算机视觉数据集；它允许搜索查询。

https://www.visualdata.io/

CMU库：通过CMU收集的Wang Huajin Wang可以用来发现高质量的数据集。

https://guides.library.cmu.edu/machine-learning/datasets

一般数据集

住房数据集

波士顿住房数据集：包含了美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获取的，在许多文献中被广泛用于对算法进行基准测试。

https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

地理数据集

Google-Landmarks-v2：用于地标识别和检索的数据集。该个数据集包含了来自世界各地的5百万张，包含20万多个地标的图片，这些图片由Wiki Commons社区提供和注释。

https://www.kaggle.com/xiuchengwang/python-dataset-download

机器学习数据集：

购物中心客户数据集： 购物中心客户数据集包含了特定城市中访问购物中心的客户信息。数据集由不同的列组成，包括性别、客户id、年龄、年收入和支出分数。它通常用于根据年龄、收入和兴趣对客户进行细分。

https://www.kaggle.com/shwetabh123/mall-customers

IRIS数据集：IRIS数据集是一个简单的和适合初学者的数据集，包含了有关花瓣和萼片宽度的信息。数据分为三个类，每个类有50行，它通常用于分类和回归建模。

https://archive.ics.uci.edu/ml/datasets/Iris

MNIST数据集：这是一个手写数字的数据集，它包含60000个训练图像和10000个测试图像，是一个适合新手用于实现图像分类的数据集，你可以从0到9对数字进行分类。

http://yann.lecun.com/exdb/mnist/

波士顿住房数据集：包含了美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获取的，在许多文献中被广泛用于对算法进行基准测试。

https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

假新闻检测数据集：它是一个CSV文件，有7796行和4列。4列分别是：新闻、标题、新闻文本、结果。

https://www.kaggle.com/c/fake-news/data

葡萄酒质量数据集：该数据集包含有关葡萄酒的不

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。