主流数据集来源

1、Kaggle数据集

Kaggle数据集地址

https://www.kaggle.com/datasets

每个数据集都对应于一个小型社区,你可以在其中讨论数据、查找公共代码,或者在其中创建自己的项目。这里包含了大量不同类型、不同结构的数据集内容。同时,还可以在其中获取到与每个数据集关联的资料,其中包含了许多数据科学家们提供的数据集分析笔记等。

2、Amazon数据集

AWS开放数据地址

https://registry.opendata.aws/

这个数据集中包含了不同领域的数据内容,例如:公共交通、生态资源、卫星图像等。同时提供了搜索功能,以帮助用户找到所需的数据集,还有各种数据集的描述信息以及用例,非常易于使用。

 

数据集存储在Amazon Web Services(AWS)资源中,对于使用AWS构建自己机器学习实验的用户来说,传输速度将非常块。

 

3、UCI机器学习数据集

UCI数据集地址:

https://archive.ics.uci.edu/ml/datasets.html

 

这个数据集来自于加州大学信息与计算机科学学院,其中包含了100多个数据集。根据机器学习问题的类型对数据集进行分类,可找到单变量或多变量时间序列数据集,以及分类、回归或推荐系统的数据集。

 

4、Google数据集搜索引擎

Google数据集搜索引擎

https://toolbox.google.com/datasetsearch

 

在2018年末,Google推出了数据集搜索服务。这是一个可以按名称搜索数据集的搜索引擎,目标是为数万个不同数据集存储库提供统一搜索入口,非常好用。

 

5、微软数据集

 

在2018年7月,微软与外界研究社区一起,发布了微软研究开发数据。

微软数据集地址:

https://msropendata.com/

 

它包含了云服务器中的数据存储库,致力于促进全球研究社区的协作,并在其中提供了一系列用于已发表研究的数据集内容。

 

6、Awesome开放数据集收藏列表

Awesom Public Datasets

https://github.com/awesomedata/awesome-public-datasets

本数据集列表中,按主题整理了大量的数据集内容,例如:生物学、经济学、教育等。其中列出的大多数数据集都是免费的,但在使用任何数据集之前,均需检查数据集的许可要求。

 

7、政府数据集

 

许多国家均在网络上提供了多种公众可用的政府数据集内容,例如:

欧洲政府数据集

https://data.europa.eu/euodp/data/dataset

美国政府数据集

https://www.data.gov/

新西兰政府数据集

https://catalogue.data.govt.nz/dataset

印度政府数据集

https://data.gov.in/

北爱尔兰公共数据集

https://www.opendatani.gov.uk/

8、VisualData数据集

VisualData数据集

https://www.visualdata.io/

视觉数据包含了一些用于构建计算机视觉模型的优秀数据集,用户可通过某个CV主题查询,例如语义分割、图像标题、图像生成、自动驾驶汽车等内容。

 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 数据平台架构通常用于支持大规模数据的存储、处理和分析。随着大数据和云计算的发展,数据平台架构已经成为许多企业必不可少的一部分。 数据平台架构通常包含以下几个组件:数据存储、数据处理、数据集成和数据可视化。在这些组件中,各种主流技术栈被广泛应用。 在数据存储方面,主流技术栈包括关系型数据库如MySQL和PostgreSQL,非关系型数据库如MongoDB和Cassandra,以及分布式文件系统如Hadoop和HDFS。这些技术栈提供了不同的数据存储模型和可扩展性,可以根据实际需求选择适合的存储方案。 在数据处理方面,主流技术栈包括Apache Spark、Apache Flink和Hadoop MapReduce等。这些技术栈提供了强大的数据处理能力,支持批量处理和流式处理,并且具有良好的容错和可伸缩性。 数据集成是数据平台架构中重要的一环,用于将来自不同数据源的数据整合起来。主流技术栈包括ETL工具如Apache Airflow和Talend,以及消息队列如Apache Kafka和RabbitMQ。这些技术栈可以帮助实现数据的抽取、转换和加载,实现数据的同步和共享。 数据可视化是将数据转化为有意义的图表和报表,用于帮助用户理解和分析数据。主流技术栈包括Tableau、Power BI和D3.js等。这些技术栈提供了丰富的可视化工具和功能,可以根据用户的需求进行定制和展示。 总之,数据平台架构与主流技术栈密切相关,它们相互配合,为企业提供强大的数据处理和分析能力。根据实际需求选择适合的技术栈,并进行合理的架构设计,将有助于提高数据平台的性能和效率。 ### 回答2: 数据平台架构是指一个公司或组织使用的技术模型和解决方案,用于存储、处理和分析大规模数据。数据平台架构通常由多个组件组成,包括数据存储、数据传输、数据处理和数据分析等。 主流的数据平台架构通常包括以下几层: 1. 数据采集层:这一层负责数据的收集和传输。常见的技术栈包括Flume、Kafka等,用于实时或批量地从不同来源收集数据,并将其传输到下一层进行处理。 2. 数据存储层:这一层负责数据的存储和管理。主要的技术栈有Hadoop和HDFS,用于分布式的存储大规模数据;另外,还有NoSQL数据库如MongoDB和Cassandra,用于存储非结构化和半结构化数据;还有传统的关系型数据库如MySQL和Oracle,用于存储结构化数据。 3. 数据处理层:这一层负责对数据进行加工和清洗,以便后续的分析。常用的技术栈有Hadoop的MapReduce和Spark的SparkSQL,用于处理大数据集的计算任务;此外,还有流处理技术如Storm和Flink,用于实时地处理数据。 4. 数据分析层:这一层负责对数据进行分析和挖掘,以发现数据背后的价值和关联。主要的技术栈有数据仓库如Hive和Presto,用于运行复杂的查询和分析任务;还有机器学习和人工智能相关的技术栈如TensorFlow和PyTorch,用于构建和训练模型。 总之,数据平台架构与主流技术栈密切相关,通过不同的技术组合和配置,可以满足不同规模和需求的数据处理和分析需求。在选择和设计数据平台架构时,需要根据具体的业务需求和数据规模,综合考虑各种因素,以实现高效、可靠和可扩展的数据处理和分析能力。 ### 回答3: 数据平台架构是指利用计算机技术和相关工具构建起来的一个系统,用于存储、管理和处理海量的数据。数据平台架构的设计需要考虑到数据的存储、计算、传输等方面的需求,以及可扩展性、高可用性、安全性等方面的要求。 在数据平台架构中,主流的技术栈包括了各种开源工具和技术。其中,Hadoop是一个开源的分布式计算框架,它使用分布式文件系统(HDFS)来存储大规模数据,并利用MapReduce模型来进行分布式计算。Hadoop生态系统中的其他工具,如Hive、Pig和Spark等,也被广泛应用于数据存储和处理的场景中。 除了Hadoop之外,NoSQL数据库也是数据平台架构中常用的技术之一。NoSQL数据库可以提供高可扩展性、高性能和灵活的数据模型,适用于大规模和高并发的数据处理场景。目前较为流行的NoSQL数据库包括MongoDB、Cassandra和Redis等。 此外,数据平台架构还需要考虑数据的可视化和分析需求,因此数据可视化和数据分析工具也是主流技术栈中的重要组成部分。例如,Tableau是一款流行的数据可视化工具,它可以将数据以图表、仪表盘等形式展示出来,帮助用户更好地理解和分析数据。而Python的数据分析库Pandas和可视化库Matplotlib,则提供了强大的数据处理和数据可视化能力。 综上所述,数据平台架构与主流技术栈密切相关,通过选择适合的技术,可以构建出功能完善、高效可靠的数据平台,满足不同场景下的数据存储、处理和分析需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值