Apache Hadoop是什么

Apache Hadoop是一个高效的、可扩展的、分布式计算的开源项目。

Apache Hadoop库是一个框架,这个框架允许通过使用简单编程模型的大数据集和计算集群的分布式处理。它的设计规模从单一服务器到数千机器,每一个都提供本地计算和存储。而不是依靠硬件提供高可用行。它的库本身是用来检测和处理应用层的错误,因此将在计算集群高可用的服务,每一个都可能失败。

Apache Hadoop包括以下模块:

1.Hadoop Common:通用的功能支持Hadoop的其他模块。

2.Hadoop Distributed File System(HDFS):分布式文件系统提供了高吞吐量访问应用数据。

3.Hadoop YARN:用于作业调度和集群资源管理框架。

4.Hadoop MapReduce:用于大数据集并行处理的基于YARN的系统。


其他和Hadoop相关的Apache项目包括:

1.Ambari™:一个基于网络的工具用于配置、管理和监控Apache Hadoop集群,Apache Hadoop集群包括Hadoop HDFS,Hadoop Hive,Hadoop MapReduce,HCatalog,HBase,ZooKeeper,OOzie,Pig 和Sqoop。Ambari也提供一个仪表板用于监测视图集的健康情况,比如热度表和观察MapReduce的能力,Pig和Hive应用视觉和特征以用户友好的方式来诊断性能。

2.Avro™:数据序列化系统。

3.Cassandra™: 一个可升级的多主数据库没有单点故障。

4.Chukwa™:用于管理大分布式系统的大数据采集系统。

5.HBase™: 一个可扩展的,支持大型表的结构化数据存储的分布式数据库。

6.Hive™:数据仓库的基础设施,支持数据汇总和专案查询。

7.Mahout™:一个可扩展的机器学习和数据挖掘库。

8.Pig™: 用于并行计算的高级数据流语言和执行框架。

9.Spark™:一个快速和通用计算的Hadoop数据引擎。它提供了一个简单而富有表现力的编程模型,编程模型支持广泛的应用,包括ETL,机器学习,数据流处理和图形计算。

10.ZooKeeper™:分布式应用的高性能的协调服务。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值