Hadoop 简介

Apache Hadoop是什么?

Apache™Hadoop® 项目为可靠的,可扩展的分布式计算开发开源软件。

Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。 它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。 该库本身不是依靠硬件来提供高可用性,而是设计用于在应用层检测并处理故障,从而在一组计算机之上提供高可用性服务,每个计算机都可能出现故障。

该项目包括这些模块:

  • Hadoop Common:支持其他 Hadoop 模块的常用工具。
  • Hadoop Distributed File System(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
  • Hadoop YARN:作业调度和集群资源管理的框架。
  • Hadoop MapReduce:一种基于YARN的系统,用于并行处理大型数据集。

Apache 的其他 hadoop 相关项目包括:

  • Ambari™:一种基于Web的工具,用于供应,管理和监控Apache Hadoop集群的,其中包括对Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop的支持。 Ambari还提供了一个用于查看集群运行状况的仪表板,例如热图以及以可视方式查看MapReduce,Pig和Hive应用程序以及以用户友好的方式诊断其性能特征的功能。
  • Avro™:数据序列化系统。
  • Cassandra™:无单点故障的可扩展多主数据库。
  • Chukwa™:管理大型分布式系统的数据收集系统。
  • HBase™:可扩展的分布式数据库,支持大型表格的结构化数据存储。
  • Hive™:提供数据汇总和即席查询的数据仓库基础架构。
  • Mahout™:可扩展的机器学习和数据挖掘库。
  • Pig™:用于并行计算的高级数据流语言和执行框架。
  • Spark™:用于Hadoop数据的快速和通用计算引擎。 Spark提供了一个简单而富有表现力的编程模型,支持广泛的应用程序,包括ETL,机器学习,流处理和图计算。
  • Tez™:一种基于Hadoop YARN的通用数据流编程框架,它提供了一个强大且灵活的引擎,可执行任意DAG任务来处理批处理和交互式用例的数据。 Hado™生态系统中的Hive™,Pig™和其他框架以及其他商业软件(例如ETL工具)正在采用Tez,以取代Hadoop™MapReduce作为基础执行引擎。
  • ZooKeeper™:分布式应用程序的高性能协调服务。

入门

要入门,请从这里开始:

  1. 通过阅读文档了解 Hadoop。
  2. 发布页面下载 Hadoop。
  3. 邮件列表中讨论 Hadoop。

下载 Hadoop

请前往发布页面下载 Apache Hadoop 发布版本。

谁在使用 Hadoop?

各种各样的公司和组织都将 Hadoop 用于研究和生产。 鼓励用户将自己添加到 Hadoop PoweredBy wiki 页面。

原文链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值