判断题(正确项):
5、Ganglia不仅可以进行监控,也可以进行告警。 T
7、Hadoop 默认调度器策略为FIFO T
8、Hadoop的特性不包括较低可扩展性。 T
13、HBase表中列族里的数据通过列限定符(或列)来定位。 T
5、MongoDB提供了一个面向文档存储,对它们操作起来比较简单和容易。注:请填入两个汉字 T
21、Yarn 可以作为Spark的资源调度框架 T
22、大数据的两大核心技术是分布式存储和分布式处理。 T
27、我们要安装的Hadoop2.7.3是否伪分布式,并且是在Linux环境下? T
28、物联网主要由应用层、处理层、感知层、网络层等几部分组成。 T
30、云数据库是部署和虚拟化在云计算环境中的数据库。T
31、资源管理和调度依赖YARN,分布式存储则依赖于HDFS T
问答题:
1、Spark对RDD的操作类型与区别
操作类型分为行动和转换;行动:是在数据集上进行运算,返回计算值。转换:是在现有的数据集上创建一个新的数据集。
2、MapReduce中间结果保存方式及优缺点
(1)保存方式:
1、使用key、value,partition组织成一个可序列化的类,实例化成对象,然后写入文件。
2、使用Hadoop自带的Text、IntWritable、IntWritable来分别定义Key、Value、Partition,然后写文件时直接写入,读文件的时直接从文件读出,这要求每个值都不能为空。
(2)优缺点:
① 优点:由于Map的输出是中间的结果,这个中间结果是由reduce处理后才产生最终输出结果,而且一旦作业完成, map的输出结果就可以删除。
② 缺点:如果把它存储在HDFS还会进行备份,如果运行map任务的节点将map中间结果传送给reduce任务之前失败, hadoop将在另一个节点上重新运行这个map任务以在此构建中间结果,造成资源浪费。
* 3、名称节点和数据节点的功能***
(1)名称节点(NameNode)负责管理分布式文件系统的命名空间(Namespace),保存了两个核心的数据结构,即FsImage和EditLog;
FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据;操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作;名称节点记录了每个文件中各个块所在的数据节点的位置信息;
(2)数据节点(DataNode)是HDFS的工作节点,负责数据的存储和读取,会根据客户端或者名称节点的调度来进行数据的存储和检索,并向名称节点定期发送自己所存储的块的列表。
* 6、MapReduce如何实现两个关系的连接(join)操作(理解图)
(1)假设有关系R(A,B)和S(B,C),对二者进行自然连接操作
(2)使用Map过程,把来自R的每个元组<a,b>转换成一个键值对<b, <R,a>>,其中的键就是属性B的值。把关系R包含到值中,这样做使得我们可以在Reduce阶段,只把那些来自R的元组和来自S的元组进行匹配。类似地,使用Map过程,把来自S的每个元组<b,c>,转换成一个键值对<b,<S,c>>
(3)所有具有相同B值的元组被发送到同一个Reduce进程中,Reduce进程的任务是,把来自关系R和S的、具有相同属性B值的元组进行合并
(4)Reduce进程的输出则是连接后的元组<a,b,c>,输出被写到一个单独的输出文件中
* 9、Hadoop1.0的主要问题,从1.0到2.0主要有哪些改进 ***
(1)Hadoop1.0主要问题:
① 抽象层次低,需人工编码
② 表达能力有限
③ 开发者自己管理作业(Job)之间的依赖关系
④ 难以看到程序整体逻辑
⑤ 执行迭代操作效率低
⑥ 资源浪费(Map和Reduce分两阶段执行)
⑦ 实时性差(适合批处理,不支持实时交互式)
(2)从1.0到2.0主要改进:
① 单一名称节点,存在单点失效问题 ——>设计了HDFS HA,提供名称节点热备机制
② 单一命名空间,无法实现资源隔离——>设计了HDFS Federation,管理多个命名空间
③ MapReduce的资源管理效率低——>设计了新的资源管理框架YARN 编程实现文件合并和去重操作
对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。
输入文件A的样例如下:
20150101 x
20150102 y
20150103 x
20150104 y
20150105 z
20150106 x
1
2
3
4
5
6
输入文件B的样例如下:
20150101 y
20150102 y
20150103 x
20150104 z
20150105 y
1
2
3
4
5
根据输入文件A和B合并得到的输出文件C的样例如下:
20150101 x
20150101 y
20150102 y
20150103 x
20150104 y
20150104 z