hadoop大数据生态系统

武晓兵

于 2018-10-12 10:04:12 发布

阅读量232

点赞数

分类专栏：大数据云计算

云计算同时被 2 个专栏收录

70 篇文章

订阅专栏

33 篇文章

订阅专栏

本文介绍了两批次的大数据组件，包括Hadoop生态中的关键组件如HDFS、Spark、MapReduce等，以及新兴的大数据处理框架如Flink、Storm，还有数据仓库、数据库、消息系统和管理工具等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一批次大数据组件测试：

HDFS、Spark、MapReduce 、Hive、Hbase、Zookeeper、Flume、Avro、Pig、Ambari、Sqoop、YARN、Mesos.

HDFS -- Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)

上的分布式文件存储系统。

Spark -- Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不

同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句

话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化

迭代工作负载。

MapReduce -- MapReduce并行计算框架，0.20前使用 org.apache.hadoop.mapred 旧接口，

0.20版本开始引入org.apache.hadoop.mapreduce的新API。

Hbase --类似Google BigTable的分布式NoSQL列数据库。（HBase和Avro已经于2010年5

月成为顶级 Apache 项目）

Hive --数据仓库工具，由Facebook贡献。

Zookeeper --分布式锁设施，提供类似Google Chubby的功能，由Facebook贡献。

Pig --大数据分析平台，为用户提供多种接口。

Avro --新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制。

Ambari --Hadoop管理工具，可以快捷的监控、部署、管理集群。

Sqoop -- Sqoop于在HADOOP与传统的数据库间进行数据的传递。

Flume --Flume最早是Cloudera提供的分布式日志收集系统，目前是Apache下的一个孵化

项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据。

Mesos --Mesos诞生于UC Berkeley的一个研究项目，现已成为Apache Incubator中的项目，

当前有一些公司使用Mesos管理集群资源，比如Twitter。

YARN -- YARN是下一代MapReduce，即MRv2，是在第一代MapReduce基础上演变而来

的，主要是为了解决原始Hadoop扩展性较差，不支持多计算框架而提出的。

第二批次大数据组件测试：

FusionInsight、CDH、Redis、Storm、Kafka、Flink、Gearpump、phoenix。

FusionInsight -- FusionInsight HD是华为开发的完全开放的大数据计算平台，是一个分布

式数据处理系统。对外提供大容量的数据存储、查询和分析能力。

CDH -- CDH (Cloudera's Distribution, including Apache Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳

定版本的Apache Hadoop构建，并集成了很多补丁，可直接用于生产环境。

Redis -- Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的

日志型、Key-Value数据库，并提供多种语言的API。

Storm -- Storm是一个分布式的、容错的实时计算系统，由BackType开发，后被Twitter

捕获。Storm属于流处理平台，多用于实时计算并更新数据库。

Kafka --Kafka是Linkedin于2010年12月份开源的消息系统，它主要用于处理活跃的流式数。活跃的流式数据在web网站应用中非

常常见，这些数据包括网站的pv、用户访问了什么内容，搜索了什么内容等。

Flink -- Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它

能够基于同一个Flink运行时，提供支持流处理和批处理两种类型应用的功能。

Gearpump -- Gearpump,即在Gearpump上提供一个Storm的透明的兼容层，用户可以不改

一行代码，不用重新定义它的jar包,就可以把Storm 运行到Gearpump上。

phoenix -- Apache Phoenix 是HBase的SQL驱动，Phoenix 使得Hbase 支持通过JDBC 的方式进行访问，并将你的SQL查询

转换成Hbase的扫描和相应的动作。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。