Hadoop之介绍

最新推荐文章于 2020-10-17 13:08:48 发布

xiaofeifei8

最新推荐文章于 2020-10-17 13:08:48 发布

阅读量341

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaofeifei8/article/details/81183655

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一，Hadoop

Hadoop是一个分布式系统框架，可以进行大数据中的高速运算和存储。框架的核心设计是HDFS和MapReduce。HDFS是分布式文件系统，用作海量数据的存储；MD处理过程为海量的数据提供计算。另外还有数据仓库工具hive，分布式数据库Hbase。现在更多的称为“Hadoop生态”。

二，HDFS

它是一个分布式的、面向块的、不可更新的（hdfs文件只能写一次，一旦关闭就再也不能修改了）、高度伸缩性的、可运行在集群中普通硬盘上的文件系统。hdfs基于一组特定的节点构建，这些节点包括NameNode（仅有一个），在HDFS内部提供元数据（存储数据的单位，如数据库的信息，分区的信息等）服务。DataNode提供存储块。存在在HDFS的文件被分成块，然后复制到多个DataNode中。NameNode可以控制所有文件操作。HDFS内部通信为标准的TCP/IP协议。

NameNode：它负责管理文件系统名称空间和外部客户机的访问，由它决定是否把文件映射到DataNode的复制块上。

DataNode：它以机架的形式组织，通过交换机将所有系统连接起来。它响应客户机的读写请求，还响应来自NameNode的的差U你创建，复制块的命令。

三，MapReduce

这是一个基本的在集群中一组标准硬件上执行的分布式计算框架。

四，Hive

Hive是一个构建在MapReduce框架之上的类sql查询引擎，它可以将hiveQL语句转换为一系列运行在集群中的mapReduce任务。

五，HBase

基于HDFS的键值对存储系统，为Hadoop提供了联机事务处理(OLTP)能力

四，Spark

Spark是一个围绕速度，易用性，复杂分析构建的大数据处理框架。和hadoop不同的是，它没有分布式文件系统，通常依赖于hadoop的hdfs；spark相比入mapreduce，计算速度更快，功能更丰富。mapredecu使用持久存储，spark使用弹性分布式数据集RDDS。

它的几个方面：

spark core：用于通用分布式数据处理的引擎

spark sql：运行在Spark上的SQL查询语句，支持一系列SQL函数和HiveQL

spark streaming：基于spark的微批处理引擎，支持各种各样数据源的导入。唯一依赖的是Spark Core引擎

spark MLib：构建在spark之上的机器学习库，支持一系列数据挖掘算法。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。