hadoop大数据生态系统

 

第一批次大数据组件测试:

HDFS、Spark、MapReduce 、Hive、Hbase、Zookeeper、Flume、Avro、PigAmbari、Sqoop、YARN、Mesos.

 

HDFS  -- Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)

        上的分布式文件存储系统。

Spark  -- Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不

       同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句

       话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化

       迭代工作负载。

MapReduce   -- MapReduce并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,

       0.20版本开始引入org.apache.hadoop.mapreduce的新API。

Hbase  --类似Google BigTable的分布式NoSQL列数据库。(HBase和Avro已经于2010年5

       月成为顶级 Apache 项目)

Hive   --数据仓库工具,由Facebook贡献。

Zookeeper  --分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

Pig     --大数据分析平台,为用户提供多种接口。

Avro    --新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

Ambari   --Hadoop管理工具,可以快捷的监控、部署、管理集群。

Sqoop  -- Sqoop于在HADOOP与传统的数据库间进行数据的传递。

Flume  --Flume最早是Cloudera提供的分布式日志收集系统,目前是Apache下的一个孵化

         项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。

Mesos  --Mesos诞生于UC Berkeley的一个研究项目,现已成为Apache Incubator中的项目,

        当前有一些公司使用Mesos管理集群资源,比如Twitter。

YARN   -- YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基础上演变而来

        的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的。  

 

第二批次大数据组件测试:

FusionInsight、CDH、Redis、Storm、Kafka、FlinkGearpump、phoenix

 

FusionInsight  -- FusionInsight HD是华为开发的完全开放的大数据计算平台,是一个分布                  

               式数据处理系统。对外提供大容量的数据存储、查询和分析能力。

CDH       -- CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳

              定版本的Apache Hadoop构建,并集成了很 多补丁,可直接用于生产环境。

 

Redis   -- Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的

         日志型、Key-Value数据库,并提供多种语言的API。

Storm  -- Storm是一个分布式的、容错的实时计算系统,由BackType开发,后被Twitter

         捕获。Storm属于流处理平台,多用于实时计算并更新数据库。

Kafka  --Kafka是Linkedin于2010年12月份开源的消息系统,它主要用于处理活跃的流式数。活跃的流式数据在web网站应用中非

              常常见,这些数据包括网站的pv、用户访问了什么内容,搜索了什么内容等。

Flink  -- Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它

        能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。

Gearpump  -- Gearpump,即在Gearpump上提供一个Storm的透明的兼容层,用户可以不改

            一行代码,不用重新定义它的jar包,就可以把Storm 运行到Gearpump上。

 phoenix    -- Apache Phoenix 是HBase的SQL驱动,Phoenix 使得Hbase 支持通过JDBC 的方式进行访问,并将你的SQL查询

              转换成Hbase的扫描和相应的动作。
 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据生态系统是由多个组件构成的,这些组件相互之间通过数据的传输和处理进行连接,共同实现大数据的处理和分析。其中,hadoop生态系统大数据生态系统中的一个重要组成部分。 hadoop生态系统的鱼骨图主要可以分为以下几个组件: 1. HDFS(Hadoop分布式文件系统):HDFS是hadoop生态系统中的分布式文件系统,它能够将大规模数据存储在集群的各个机器上,并提供高可靠性和高吞吐量的数据访问。 2. MapReduce:MapReduce是hadoop生态系统中的一种编程模型,用于处理大规模数据的并行计算。通过将任务分解为多个子任务,并在分布式环境中进行计算和结果的合并,MapReduce能够高效地处理大数据。 3. YARN(Yet Another Resource Negotiator):YARN是hadoop生态系统中的资源管理和作业调度框架,它负责分配集群中的计算资源,并协调各个作业的执行。YARN的出现使得hadoop生态系统能够同时运行多个并发作业,提高了系统的利用率和效率。 4. HBase:HBase是hadoop生态系统中的分布式非关系型数据库,它基于HDFS构建,具有高可靠性、高可扩展性和高性能的特点。HBase能够存储海量的结构化和半结构化数据,并支持快速的随机读写操作。 5. Hive:Hive是hadoop生态系统中的数据仓库工具,它提供了类似于SQL的查询语言,使得用户可以通过简单的SQL语句来查询和分析存储在hadoop集群中的数据。Hive的优势在于它能够将复杂的查询转化为MapReduce任务,从而实现对大规模数据的高效处理。 总之,hadoop生态系统的鱼骨图展示了其不同组件之间的关系和作用。通过理解和分析这些组件,可以更好地掌握和应用hadoop生态系统,实现对大数据的有效处理和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值