推荐的公共数据集资源
1. Kaggle
Kaggle 是一个广受欢迎的数据科学社区,提供大量高质量公共数据集。
推荐数据集
- Titanic - Machine Learning from Disaster:经典的入门数据集。
- House Prices - Advanced Regression Techniques:房价预测。
- IMDB Movie Reviews:自然语言处理任务。
2. UCI Machine Learning Repository
UCI Machine Learning Repository 提供经典的机器学习数据集,适合入门和研究。
推荐数据集
- Iris:经典分类数据集。
- Wine Quality:葡萄酒质量数据集。
- Adult Income:预测收入水平。
3. Google Dataset Search
Google Dataset Search 是 Google 提供的开放数据集搜索引擎,支持快速查找各类数据集。
特点
- 涵盖广泛主题(如科学、经济、社会)。
- 根据你的研究兴趣,使用关键词搜索数据集。
4. Data.gov
Data.gov 是美国政府开放数据平台,提供权威、更新频繁的公共数据。
推荐数据集
- COVID-19 Data:疫情相关数据。
- US Census Data:美国人口普查数据。
5. AWS Open Data Registry
AWS Open Data Registry 提供在 AWS 上托管的大型开放数据集。
推荐数据集
- NOAA Weather Data:天气数据。
- Landsat Public Datasets:卫星图像数据。
6. Open Data Portal Europe
Open Data Portal Europe 提供欧洲数据相关的开放数据。
推荐数据集
- EU Transport Data:交通数据。
- Environment & Climate:气候变化数据。
7. Awesome Public Datasets (GitHub)
Awesome Public Datasets 是 GitHub 社区维护的开源项目,汇总了多个领域的数据集。
特点
- 数据集种类丰富,涵盖多个领域。
- 持续更新,包含最新的数据源。
8. World Bank Open Data
World Bank Open Data 提供全球经济和社会发展的公开数据。
推荐数据集
- World Development Indicators:世界发展指标。
- Education Statistics:教育数据。
9. Zenodo
Zenodo 是一个开放的研究数据存储库,支持科学家和研究人员上传和分享数据。
推荐数据集
- 根据领域搜索(如 “climate” 或 “genomics”)。
10. OpenStreetMap
OpenStreetMap 是一个开源地理信息数据平台,适用于地理数据分析。
推荐用途
- 提供全球范围的地理数据。
- 适用于地图相关项目。
11. Quandl
Quandl 提供金融和经济相关的数据集,支持免费和付费使用。
推荐数据集
- Stock Market Data:股票市场数据。
- Economic Indicators:经济指标数据。
12. The Humanitarian Data Exchange (HDX)
HDX 是一个专注于人道主义相关数据的平台。
推荐数据集
- 全球灾害、难民、健康等数据。
- 如果关注机器学习和数据科学任务,推荐 Kaggle 和 UCI。
- 如果需要经济、社会等领域的大型数据集,推荐 World Bank Open Data 和 Data.gov。
- 如果需要地理信息数据,推荐 OpenStreetMap。