HADOOP介绍

Hadoop是一个分布式系统基础架构,主要用于大数据的分析和处理。它包含HDFS和MapReduce核心,以及众多子项目如HBase、Hive等。Hadoop的目录结构包括bin、etc、include、lib等,用于存放脚本、配置文件和库。HDFS提供高吞吐量的数据访问,MapReduce是数据处理模型,YARN则是分布式资源调度框架。
摘要由CSDN通过智能技术生成

HADOOP

hadoop历史

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

Hadoop 就是为了解决面向互联网及其他来源的大数据的分析和并行处理计算模型。她的诞生引起了学术界、金融界以及商业界的广泛关注。其创建之初的宗旨就是让使用者和用户能够通过使用大量普通的服务器搭建相应的服务器集群来实现大数据的并行处理能力,其优先考虑的是数据扩展性和系统的可用性。

hadoop用处

  • 数据清洗功能
  • 数据分析功能
  • 数据可视化功能

hadoop项目介绍

Hadoop是一个分布式计算基础架构这把"大伞"下的相关子项目的集合。这些项目属于Apache软件基金会(http://hadoop.apache.org),后者为开源软件项目社区提供支持。虽然Hadoop最出名的是MapReduce及其分布式文件系统(HDFS,从NDFS改名而来),但还有其他子项目提供配套服务,其他子项目提供补充性服务。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7DW03cdE-1570707579203)(C:\Users\ou\AppData\Roaming\Typora\typora-user-images\1570706224676.png)]

  • Core

一系列分布式文件系统和通用I/O的组件和接口(序列化、Java RPC和持久化数据结构)。

  • Avro

一种提供高效、跨语言RPC的数据序列系统,持久化数据存储。(在本书写作期间,Avro只是被当作一个新的子项目创建,而且尚未有其他Hadoop子项目在使用它。)

  • MapReduce

分布式数据处理模式和执行环境,运行于大型商用机集群。

  • HDFS

分布式文件系统,运行于大型商用机集群。

  • Pig

一种数据流语言和运行环境,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值