Hadoop之介绍

一,Hadoop

    Hadoop是一个分布式系统框架,可以进行大数据中的高速运算和存储。框架的核心设计是HDFS和MapReduce。HDFS是分布式文件系统,用作海量数据的存储;MD处理过程为海量的数据提供计算。另外还有数据仓库工具hive,分布式数据库Hbase。现在更多的称为“Hadoop生态”。

二,HDFS

   它是一个分布式的、面向块的、不可更新的(hdfs文件只能写一次,一旦关闭就再也不能修改了)、高度伸缩性的、可运行在集群中普通硬盘上的文件系统。hdfs基于一组特定的节点构建,这些节点包括NameNode(仅有一个),在HDFS内部提供元数据(存储数据的单位,如数据库的信息,分区的信息等)服务。DataNode提供存储块。存在在HDFS的文件被分成块,然后复制到多个DataNode中。NameNode可以控制所有文件操作。HDFS内部通信为标准的TCP/IP协议。

NameNode:它负责管理文件系统名称空间和外部客户机的访问,由它决定是否把文件映射到DataNode的复制块上。

DataNode:它以机架的形式组织,通过交换机将所有系统连接起来。它响应客户机的读写请求,还响应来自NameNode的的差U你创建,复制块的命令。

三,MapReduce

这是一个基本的在集群中一组标准硬件上执行的分布式计算框架。

四,Hive

Hive是一个构建在MapReduce框架之上的类sql查询引擎,它可以将hiveQL语句转换为一系列运行在集群中的mapReduce任务。

五,HBase

基于HDFS的键值对存储系统,为Hadoop提供了联机事务处理(OLTP)能力

四,Spark

Spark是一个围绕速度,易用性,复杂分析构建的大数据处理框架。和hadoop不同的是,它没有分布式文件系统,通常依赖于hadoop的hdfs;spark相比入mapreduce,计算速度更快,功能更丰富。mapredecu使用持久存储,spark使用弹性分布式数据集RDDS。

它的几个方面:

spark core:用于通用分布式数据处理的引擎

spark sql:运行在Spark上的SQL查询语句,支持一系列SQL函数和HiveQL

spark streaming:基于spark的微批处理引擎,支持各种各样数据源的导入。唯一依赖的是Spark Core引擎

spark MLib:构建在spark之上的机器学习库,支持一系列数据挖掘算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值