Hadoop生态圈中各个服务角色

最新推荐文章于 2022-05-10 15:50:21 发布

大数据面试宝典

最新推荐文章于 2022-05-10 15:50:21 发布

阅读量242

点赞数

分类专栏：大数据大数据面试 Hadoop 文章标签： hadoop 大数据

王傲旗的大数据之路

本文链接：https://blog.csdn.net/weixin_43893397/article/details/115409734

版权

大数据面试同时被 3 个专栏收录

50 篇文章 11 订阅

订阅专栏

40 篇文章 2 订阅

订阅专栏

13 篇文章 2 订阅

订阅专栏

Hadoop生态圈中各个服务角色

zookeeper角色：ZooKeeper服务是指包含一个或多个节点的集群提供服务框架用于集群管理。对于集群，Zookeeper服务提供的功能包括维护配置信息、命名、提供HyperBase的分布式同步，推荐在 ZooKeeper集群中至少有3个节点。
JDK角色：JDK是 Java 语言的软件开发工具包， JDK是整个Java开发的核心，它包含了Java的运行环境，Java工具和Java基础的类库。
Apache-Flume角色：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接收方（可定制）的能力。
Apache-Hive角色：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。
Apache-Storm角色：Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。当计算模型比较适合流式时，Storm的流式处理，省去了批处理的收集数据的时间.

6.Elasticsearch角色：Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索、稳定、可靠、快速，安装使用方便。

NameNode角色：HDFS系统中的节点用于维护文件系统中所有文件的目录结构并跟踪文件数据存储于哪些数据节点。当客户端需要从HDFS 文件系统中获得文件时，它通过和NameNode通讯来知道客户端哪个数据节点上有客户端需要的文件。一个Hadoop集群中只能有一个NameNode。NameNode不能被赋予其他角色。
DataNode角色：在HDFS中，DataNode是用来存储数据块的节点。
Secondary NameNode 角色：为NameNode上的数据创建周期性检查点的节点。节点将周期性地下载当前NameNode镜像和日志文件，将日志和镜像文件合并为一个新的镜像文件然后上传到NameNode。被分配了NameNode角色的机器不应再被分配Secondary NameNode 角色。
Standby Namenode角色：Standby模式的NameNode元数据（Namespcae information 和 Block 都是和Active NameNode中的元数据是同步的，一但切换成Active模式，马上就可以提供NameNode服务。
JournalNode角色：Standby NameName和Active NameNode通过JournalNode通信，保持信息同步。
HBase角色：HBase是一个分布式的、面向列的开源数据库。HBase在Hadoop之上提供了类似于BigTable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
Kafka角色：Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消费。
Redis角色：Redis是一个开源的使用C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。
Scala角色：Scala是一门多范式的编程语言，一种类似Java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。
Sqoop角色：Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。
Impala角色：Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。
Crawler角色：Crawler是大快DKHadoop专有组件，爬虫系统，爬取动态静态数据。
Spark角色：Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在Scala语言中实现的，它将Scala用作其应用程序框架。与Hadoop不同，Spark和Scala能够紧密集成，其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。
HUE角色：HUE是一组可与您的Hadoop jiqun 交互的网络应用程序。HUE应用能让您浏览HDFS和工作,管理Hive metastore,运行Hive，浏览HBase Sqoop出口数据,提交MapReduce程序,构建自定义的搜索引擎与Solr一起调度重复性的工作流。

大数据面试宝典

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop生态圈中各个服务角色

Hadoop生态圈中各个服务角色zookeeper角色：ZooKeeper服务是指包含一个或多个节点的集群提供服务框架用于集群管理。对于集群，Zookeeper服务提供的功能包括维护配置信息、命名、提供HyperBase的分布式同步，推荐在 ZooKeeper集群中至少有3个节点。JDK角色：JDK是 Java 语言的软件开发工具包， JDK是整个Java开发的核心，它包含了Java的运行环境，Java工具和Java基础的类库。Apache-Flume角色：Flume是Cloudera提供
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。