大数据面试

最新推荐文章于 2024-07-27 09:29:12 发布

YzhYcj

最新推荐文章于 2024-07-27 09:29:12 发布

阅读量619

点赞数 2

分类专栏： yzh

yzh 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

讲述大数据的生态组件（2.0）

1.hdfs（hadoop分布式文件系统）

hdfs是hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件

上运行，hdfs讲话了文件的一致性模型，通过对流式数据让问，提供高吞吐量应用程序访问功能，适合带有大型数据集的应用程序，

2.yarn（集群资源管理系统）

yarn是hadoop2.x以后对之前jobtracker和tasktracker模型的优化而产生出来的，将jobTracker的资源分配和作业调度以及监督分开，该框架主要有resourceManager，ApplicationMaster，modeManager

3.MapReduce（分布式离线计算框架）

MapReduce是一种计算模型，用于急性大数据量的计算，其中map对数据集上的独立元素进行制定的操作，生成键值对形式中间结果，Reduce侧对中间结果中相同“键”的所有“值”进行规约，以得到最终结果，MapReduce这样的功能划分，非常适合在大量计算机组成更多分布式并行化境中进行数据处理

4.strom（流式计算框架）

storm是一个分布式的，容错的实时计算系统，有backtype开发，后来被twirrer铺货，storm属于流处理平台，多用于实时计算并更新数据库，storm也可被用于连续计算，对数据流做连续查询，在计算时就将结果以流的形式输出给用户，他还用于分布式rpc

以并行的方式运行昂贵的运算

spark（内存计算框架）

spark是个开源的数据分析集群计算框架，建立在hdfs之上，spark与hadoop一样，用于构建大规模，低延时的数据分析应用

spark采用scala语言实现，使用scala作为应用框架，spark采用基于内存的分布式数据集，优化了迭代式的工作负载以及交互式查询

hive（数据仓库）

hive由facebook开源，最初用于解决海量结构化的日志数据统计问题，hive定义了一种类似sql的查询语言（hql），将sql转化为mapreduce任务在hadoop上执行，通常用于离线分析

pig（数据流处理）

pig设计动机是一种基于mapreduce的数据分析工具，定义了一种数据流语音-pig latin ，将脚本转换为mapreduce任务在hadoop上执行，通常用于进行离线分析

Mathout（数据挖掘库）

mathout最初是apache lucent的子项目，他在极短的时间内取得了长足的发展，现在是apache的顶级项目，对于传统的mapreduce

编程方式来实现机器学习的算法时，汪汪需要花费大量的开发时间，并且开发周期长，而math out的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员方便快捷的创建只能应用程序。

HBase是一个针对结构化数据的可伸缩，高可靠，高性能，分布式和面向列的动态魔术数据库，和传统关系数据库不同，hBase采用了BigTable的数据模型：增强的稀疏排序映射表，其中键由行关键字，列关键字和时间戳构成，hbase提供了对大规模数据的随机，实时读写访问

11。zookeeper（分布式协作服务）

zookeeper主要解决分布式环境下的数据管理问题，统一命名，状态同步，集群管理，配置同步等。zookeeper的主要实现两部：

1》选举Leader；2》同步数据

12.Oozie（作业流调度系统）

Oozie是用于Hadoop平台的一种作业流调度引擎，使用Oozie协调器促进了相互依赖的重复作业之间的协调，可以使用关于顶的时间或数据可用性来出发ApacheOozie

13.Ambri（安装，部署，配置和管理工具）

Ambari是一个供应，管理和僵尸Apache Hadoop集群的开源框架，他提供一个直观的操作工具和一个健壮的hadoop api，可以隐蔽复杂的hadoop操作，使集群操作大大简化

14.flume（日志收集工具）

Flume是Cloudera开源的日志收集系统，具有分布式，高可靠，高容错，易于定制和扩展的特点。它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在Flume中给定值数据发送方，从而支持收集各种不同协议数据，同时，flume数据流提供对日志数据进行简单处理的能力，如过滤，格式转换等，此外，flume还具有能够将日志写往各种数据目标的能力，总的来说，flume是一个可扩展，适合复杂环境的海量日志收集系统

15.spoop（数据库ETl工具）

sqoop是sql-to-hadoop的缩写，主要用于传统数据库和hadoop之间传输数据，数据的导入和导出本质上是MapReduce程序，充分利用了MR的并行化和容错性，其中主要利用的是MP中的Map任务来实现并行导入，导出。

hadoop的特点

hadooop是一个能够对大量数据进行分布树处理的软件框架，他是一种可靠，搞笑，可伸缩的方式进行数据处理

高可靠性：hadoop按位存储和处理数据的能力值得人们信赖

高扩展性：hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可以方便的扩展到数以千计的节点中

高效性：hadoop能够在节点之间动态的已从数据，并保证各个节点的动态平衡，因此处理速度非常快

高容错性：hadoop能够自动保存数据的多个副本，并且能够自动将数百的任务重新分配

低成本：hadoop依赖于社区服务，他的成本比较低