HADOOP
hadoop历史
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
Hadoop 就是为了解决面向互联网及其他来源的大数据的分析和并行处理计算模型。她的诞生引起了学术界、金融界以及商业界的广泛关注。其创建之初的宗旨就是让使用者和用户能够通过使用大量普通的服务器搭建相应的服务器集群来实现大数据的并行处理能力,其优先考虑的是数据扩展性和系统的可用性。
hadoop用处
- 数据清洗功能
- 数据分析功能
- 数据可视化功能
hadoop项目介绍
Hadoop是一个分布式计算基础架构这把"大伞"下的相关子项目的集合。这些项目属于Apache软件基金会(http://hadoop.apache.org),后者为开源软件项目社区提供支持。虽然Hadoop最出名的是MapReduce及其分布式文件系统(HDFS,从NDFS改名而来),但还有其他子项目提供配套服务,其他子项目提供补充性服务。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7DW03cdE-1570707579203)(C:\Users\ou\AppData\Roaming\Typora\typora-user-images\1570706224676.png)]
- Core
一系列分布式文件系统和通用I/O的组件和接口(序列化、Java RPC和持久化数据结构)。
- Avro
一种提供高效、跨语言RPC的数据序列系统,持久化数据存储。(在本书写作期间,Avro只是被当作一个新的子项目创建,而且尚未有其他Hadoop子项目在使用它。)
- MapReduce
分布式数据处理模式和执行环境,运行于大型商用机集群。
- HDFS
分布式文件系统,运行于大型商用机集群。
- Pig
一种数据流语言和运行环境,