hadoop了解

   导言:

   在数据量暴增的今天,企业的趋势,过去的统计和未来的预测其实就藏在大量的数据之中,但如何获得?hadoop提供了可靠的存储和高性能并行服务处理。但hadoop真正的价值来自于这项技术的添加件、交叉集成和定制实现。其中又以MapReduce的作用尤为突出。

 

    大数据正是指这些数据以及相关工具、平台和分析技术。
    那些追逐“大数据”的机构面临的最大挑战是获得一种平台,这种平台可以保存与访问所有当前与未来的信息,并高性价比地在线提交信息供分析之用。这意味着一种高可伸缩的平台。这类平台由存储技术、查询语言、分析工具、内容分析工具以及传输基础设施构成。
    从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做MapReduce技术的高性能并行数据处理服务。
    Hadoop是自愈系统。在出现系统变化或故障时,它仍可以运行大规模的高性能处理任务,并提供数据。
■Hadoop Common:支持其他Hadoop子项目的通用工具。

■Chukwa:管理大型分布式系统的数据采集系统。

■HBase:支持大型表格结构化数据存储的可伸缩、分布式数据库。

■HDFS:向应用数据提供高吞吐量访问的分布式文件系统。

■Hive:提供数据汇总和随机查询的数据仓库基础设施。

■MapReduce:用于对计算群集上的大型数据集合进行分布式处理的软件框架。

■Pig:用于并行计算的高级数据流语言和执行框架。

■ZooKeeper:用于分布式应用的高性能协调服务。
   Hadoop平台的多数实现至少包括其中的一些子项目,因为这些子项目常常是利用“大数据”所不可或缺的。其中MapReduce则几乎是肯定的事情,因为其引擎赋予了Hadoop平台速度和灵活性。MapReduce框架可以划分为两个功能区:其中Map具备将工作分配给分布式群集中不同节点的功能;Reduce则负责核对工作,将工作结果转化为单一值。MapReduce的主要优势之一是容错性。MapReduce是通过监测群集中的每个节点来实现容错性的。每个节点定期向MapReduce报告和返回完成的工作与状态更新。如果某个节点的静默时间长度超出了预期值,主节点就会发出通知,并把工作重新分配给其他节点。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值