数据集查找器
Google Dataset Search:与Google Scholar的工作方式类似,Dataset Search 可以让你在任何托管的地方找到数据集,无论是出版商的网站,还是数字图书馆,又或者是一个作者的网页。它是一个非凡的数据集查找器,包含了超过2500万个数据集。
https://toolbox.google.com/datasetsearch
Kaggle:Kaggle提供了一个庞大的数据集容器,对于热衷于Kaggle的专家来说,数据集是足够了的。
https://www.kaggle.com/
UCI机器学习库:UCI的机器学习库为开源数据集提供了最新的资源。
http://mlr.cs.umass.edu/ml/
VisualData:按类别搜索计算机视觉数据集;它允许搜索查询。
https://www.visualdata.io/
CMU库:通过CMU收集的Wang Huajin Wang可以用来发现高质量的数据集。
https://guides.library.cmu.edu/machine-learning/datasets
一般数据集
住房数据集
波士顿住房数据集:包含了美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获取的,在许多文献中被广泛用于对算法进行基准测试。
https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
地理数据集
Google-Landmarks-v2:用于地标识别和检索的数据集。该个数据集包含了来自世界各地的5百万张,包含20万多个地标的图片,这些图片由Wiki Commons社区提供和注释。
https://www.kaggle.com/xiuchengwang/python-dataset-download
机器学习数据集:
购物中心客户数据集: 购物中心客户数据集包含了特定城市中访问购物中心的客户信息。数据集由不同的列组成,包括性别、客户id、年龄、年收入和支出分数。它通常用于根据年龄、收入和兴趣对客户进行细分。
https://www.kaggle.com/shwetabh123/mall-customers
IRIS数据集:IRIS数据集是一个简单的和适合初学者的数据集,包含了有关花瓣和萼片宽度的信息。数据分为三个类,每个类有50行,它通常用于分类和回归建模。
https://archive.ics.uci.edu/ml/datasets/Iris
MNIST数据集:这是一个手写数字的数据集,它包含60000个训练图像和10000个测试图像,是一个适合新手用于实现图像分类的数据集,你可以从0到9对数字进行分类。
http://yann.lecun.com/exdb/mnist/
波士顿住房数据集:包含了美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获取的,在许多文献中被广泛用于对算法进行基准测试。
https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
假新闻检测数据集:它是一个CSV文件,有7796行和4列。4列分别是:新闻、标题、新闻文本、结果。
https://www.kaggle.com/c/fake-news/data
葡萄酒质量数据集:该数据集包含有关葡萄酒的不