AI经典开放数据集概览

TiSV工作室

已于 2023-11-11 17:03:06 修改

阅读量1.3k

点赞数 1

文章标签：人工智能

于 2021-11-09 19:24:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43891607/article/details/121231709

版权

以下每个数据站点均已根据知识共享署名4.0国际许可协议获得许可。每个人都可以访问，并根据规则下载使用丰富的数据资源。

精选数据网站

1. VisualData

VisualData 被称为最好的CV数据集合网站, 在这里你将发现丰富的可用数据资源，助力你的CV学习之旅。

2. DatasetList

DatasetList 是综合性数据集合网站, 在这里你将发现NLP, CV, Audio所有类型的数据集，同时它更新和指引当前最流行的数据标注工具。

3. FigureEight

FigureEight 为整个数据科学社区提供经典的综合性数据集, 在这里你将可以查看和下载足够大的数据集以进行模型训练，如: 医学信息提取, 旧金山停车标志检测等。

4. Kaggle

Kaggele 作为以机器学习竞赛而享誉全球的站点，它仍然对外提供并征集免费的数据资源，如：具有300万条记录的美国事故数据集，2019冠状病毒数据集等。

5. TFDS

TFDS 全称Tensorflow Datasets，由tensorflow团队提供的综合数据集工具，截止到2020年3月，共包含数据集155个，类型包括：文本，图片，视频，语音，结构化表格等AI基线数据集，当然除了提供下载外，它也包括许多数据集处理方法。

6. TorchVision

pytorch中的视觉工具包，除了包括一些视觉处理工具和模型，通过它也可以下载24种(截止到2020年3月)最常用的视觉数据集，例如：COCO，MNIST，VOC，FakeData等。

7. TorchText

pytorch中的视觉工具包，除了包括一些视觉处理工具和模型，通过它也可以下载24种(截止到2020年3月)最常用的视觉数据集，例如：COCO，MNIST，VOC，FakeData等。

8. TorchAudio

pytorch中的语音工具包，除了包括一些语音处理工具和模型，通过它也可以下载4种(截止到2020年3月)最常用的语音数据集，如：COMMONVOICE，LIBRISPEECH，VCTK，YESNO。

9. Anki

Anki机器翻译数据站点几乎包含所有主流语言对英文的翻译，这些数据集能测试不同机器翻译模型效果，如果你正在从事这方面的研究，它将对你意义非凡。

10. AwesomeDatasets

GitHub上获得星数最多的数据集项目，它同样是一个数据集向导，包括几乎所有类型的数据集！

11. OpenSLR

OpenSLR是一个致力于托管语音和语言资源的网站，例如用于语音识别的训练语料库以及与语音识别有关的软件。让任何人都可以方便地放置他们创建的资源和公开下载它们。

12. CelebA

CelebA拥有大规模的人脸标准数据集，共有202,599张人脸图像，由香港中文大学多媒体实验室提供。

13. CLUECorpus2020

这是中文语言理解测评基准的数据集，它已经被用于大量主流NLP模型的中文测试，其中包括：8G的新闻语料，3G的社区互动-语料，1.1G维基百科-语料，2.3G评论数据-语料。

14. WiderPerson

这是由中科院发布的用于户外密集行人检测的多样化数据集，它是人流量检测重要的参考数据集之一，也是该领域CV模型效果的衡量标准。该数据集一共13,382张图像，其中9,000已经被标注，其余用于提交测试。

15. CrowdHuman

这是由旷视发布的拥挤人群检测数据集，也是非常具有代表性的流量统计数据集，CrowdHuman标准数据丰富，包含分别用于训练，验证和测试的15000、4370和5000张图像。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

TiSV工作室 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。