第一批次大数据组件测试:
HDFS、Spark、MapReduce 、Hive、Hbase、Zookeeper、Flume、Avro、Pig、Ambari、Sqoop、YARN、Mesos.
HDFS -- Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)
上的分布式文件存储系统。
Spark -- Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不
同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句
话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化
迭代工作负载。
MapReduce -- MapReduce并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,
0.20版本开始引入org.apache.hadoop.mapreduce的新API。
Hbase --类似Google BigTable的分布式NoSQL列数据库。(HBase和Avro已经于2010年5
月成为顶级 Apache 项目)
Hive --数据仓库工具,由Facebook贡献。
Zookeeper --分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。
Pig --大数据分析平台,为用户提供多种接口。
Avro --新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
Ambari --Hadoop管理工具,可以快捷的监控、部署、管理集群。
Sqoop -- Sqoop于在HADOOP与传统的数据库间进行数据的传递。
Flume --Flume最早是Cloudera提供的分布式日志收集系统,目前是Apache下的一个孵化
项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。
Mesos --Mesos诞生于UC Berkeley的一个研究项目,现已成为Apache Incubator中的项目,
当前有一些公司使用Mesos管理集群资源,比如Twitter。
YARN -- YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基础上演变而来
的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的。
第二批次大数据组件测试:
FusionInsight、CDH、Redis、Storm、Kafka、Flink、Gearpump、phoenix。
FusionInsight -- FusionInsight HD是华为开发的完全开放的大数据计算平台,是一个分布
式数据处理系统。对外提供大容量的数据存储、查询和分析能力。
CDH -- CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳
定版本的Apache Hadoop构建,并集成了很 多补丁,可直接用于生产环境。
Redis -- Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的
日志型、Key-Value数据库,并提供多种语言的API。
Storm -- Storm是一个分布式的、容错的实时计算系统,由BackType开发,后被Twitter
捕获。Storm属于流处理平台,多用于实时计算并更新数据库。
Kafka --Kafka是Linkedin于2010年12月份开源的消息系统,它主要用于处理活跃的流式数。活跃的流式数据在web网站应用中非
常常见,这些数据包括网站的pv、用户访问了什么内容,搜索了什么内容等。
Flink -- Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它
能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。
Gearpump -- Gearpump,即在Gearpump上提供一个Storm的透明的兼容层,用户可以不改
一行代码,不用重新定义它的jar包,就可以把Storm 运行到Gearpump上。
phoenix -- Apache Phoenix 是HBase的SQL驱动,Phoenix 使得Hbase 支持通过JDBC 的方式进行访问,并将你的SQL查询
转换成Hbase的扫描和相应的动作。