大数据面试

讲述大数据的生态组件(2.0)

1.hdfs(hadoop分布式文件系统)

      hdfs是hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件

上运行,hdfs讲话了文件的一致性模型,通过对流式数据让问,提供高吞吐量应用程序访问功能,适合带有大型数据集的应用程序, 

2.yarn(集群资源管理系统)

yarn是hadoop2.x以后对之前jobtracker和tasktracker模型的优化而产生出来的,将jobTracker的资源分配和作业调度以及监督分开,该框架主要有resourceManager,ApplicationMaster,modeManager

 

3.MapReduce(分布式离线计算框架)

MapReduce是一种计算模型,用于急性大数据量的计算,其中map对数据集上的独立元素进行制定的操作,生成键值对形式中间结果,Reduce侧对中间结果中相同“键”的所有“值”进行规约,以得到最终结果,MapReduce这样的功能划分,非常适合在大量计算机组成更多分布式并行化境中进行数据处理

4.strom(流式计算框架)

storm是一个分布式的,容错的实时计算系统,有backtype开发,后来被twirrer铺货,storm属于流处理平台,多用于实时计算并更新数据库,storm也可被用于连续计算,对数据流做连续查询,在计算时就将结果以流的形式输出给用户,他还用于分布式rpc

以并行的方式运行昂贵的运算

spark(内存计算框架)

spark是个开源的数据分析集群计算框架,建立在hdfs之上,spark与hadoop一样,用于构建大规模,低延时的数据分析应用

spark采用scala语言实现,使用scala作为应用框架,spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询

hive(数据仓库)

hive由facebook开源,最初用于解决海量结构化的日志数据统计问题,hive定义了一种类似sql的查询语言(hql),将sql转化为mapreduce任务在hadoop上执行,通常用于离线分析

pig(数据流处理)

pig设计动机是一种基于mapreduce的数据分析工具,定义了一种数据流语音-pig latin ,将脚本转换为mapreduce任务在hadoop上执行,通常用于进行离线分析

Mathout(数据挖掘库)

mathout最初是apache lucent的子项目,他在极短的时间内取得了长足的发展,现在是apache的顶级项目,对于传统的mapreduce

编程方式来实现机器学习的算法时,汪汪需要花费大量的开发时间,并且开发周期长,而math out的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员方便快捷的创建只能应用程序。

 

HBase是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态魔术数据库,和传统关系数据库不同,hBase采用了BigTable的数据模型:增强的稀疏排序映射表,其中键由行关键字,列关键字和时间戳构成,hbase提供了对大规模数据的随机,实时读写访问

11。zookeeper(分布式协作服务)

zookeeper主要解决分布式环境下的数据管理问题,统一命名,状态同步,集群管理,配置同步等。zookeeper的主要实现两部:

1》选举Leader;2》同步数据

12.Oozie(作业流调度系统)

Oozie是用于Hadoop平台的一种作业流调度引擎,使用Oozie协调器促进了相互依赖的重复作业之间的协调,可以使用关于顶的时间或数据可用性来出发ApacheOozie

13.Ambri(安装,部署,配置和管理工具)

Ambari是一个供应,管理和僵尸Apache Hadoop集群的开源框架,他提供一个直观的操作工具和一个健壮的hadoop api,可以隐蔽复杂的hadoop操作,使集群操作大大简化

14.flume(日志收集工具)

Flume是Cloudera开源的日志收集系统,具有分布式,高可靠,高容错,易于定制和扩展的特点。它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在Flume中给定值数据发送方,从而支持收集各种不同协议数据,同时,flume数据流提供对日志数据进行简单处理的能力,如过滤,格式转换等,此外,flume还具有能够将日志写往各种数据目标的能力,总的来说,flume是一个可扩展,适合复杂环境的海量日志收集系统

15.spoop(数据库ETl工具)

     sqoop是sql-to-hadoop的缩写,主要用于传统数据库和hadoop之间传输数据,数据的导入和导出本质上是MapReduce程序,充分利用了MR的并行化和容错性,其中主要利用的是MP中的Map任务来实现并行导入,导出。

hadoop的特点

hadooop是一个能够对大量数据进行分布树处理的软件框架,他是一种可靠,搞笑,可伸缩的方式进行数据处理

高可靠性:hadoop按位存储和处理数据的能力值得人们信赖

高扩展性:hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可以方便的扩展到数以千计的节点中

高效性:hadoop能够在节点之间动态的已从数据,并保证各个节点的动态平衡,因此处理速度非常快

高容错性:hadoop能够自动保存数据的多个副本,并且能够自动将数百的任务重新分配

低成本:hadoop依赖于社区服务,他的成本比较低

 

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值