大数据课后习题及部分实验

 判断题(正确项):

5、Ganglia不仅可以进行监控,也可以进行告警。  T

7、Hadoop 默认调度器策略为FIFO    T

8、Hadoop的特性不包括较低可扩展性。   T

13、HBase表中列族里的数据通过列限定符(或列)来定位。    T

5、MongoDB提供了一个面向文档存储,对它们操作起来比较简单和容易。注:请填入两个汉字 T

21、Yarn 可以作为Spark的资源调度框架     T

22、大数据的两大核心技术是分布式存储和分布式处理。   T

27、我们要安装的Hadoop2.7.3是否伪分布式,并且是在Linux环境下?   T

28、物联网主要由应用层、处理层、感知层、网络层等几部分组成。   T

30、云数据库是部署和虚拟化在云计算环境中的数据库。T

31、资源管理和调度依赖YARN,分布式存储则依赖于HDFS   T

问答题:

1、Spark对RDD的操作类型与区别

操作类型分为行动和转换;行动:是在数据集上进行运算,返回计算值。转换:是在现有的数据集上创建一个新的数据集。

 2、MapReduce中间结果保存方式及优缺点

(1)保存方式:

1、使用key、value,partition组织成一个可序列化的类,实例化成对象,然后写入文件。

2、使用Hadoop自带的Text、IntWritable、IntWritable来分别定义Key、Value、Partition,然后写文件时直接写入,读文件的时直接从文件读出,这要求每个值都不能为空。

(2)优缺点:

① 优点:由于Map的输出是中间的结果,这个中间结果是由reduce处理后才产生最终输出结果,而且一旦作业完成, map的输出结果就可以删除。

② 缺点:如果把它存储在HDFS还会进行备份,如果运行map任务的节点将map中间结果传送给reduce任务之前失败, hadoop将在另一个节点上重新运行这个map任务以在此构建中间结果,造成资源浪费。

* 3、名称节点和数据节点的功能***

(1)名称节点(NameNode)负责管理分布式文件系统的命名空间(Namespace),保存了两个核心的数据结构,即FsImage和EditLog;

FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据;操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作;名称节点记录了每个文件中各个块所在的数据节点的位置信息;

(2)数据节点(DataNode)是HDFS的工作节点,负责数据的存储和读取,会根据客户端或者名称节点的调度来进行数据的存储和检索,并向名称节点定期发送自己所存储的块的列表。

* 6、MapReduce如何实现两个关系的连接(join)操作(理解图)

(1)假设有关系R(A,B)和S(B,C),对二者进行自然连接操作

(2)使用Map过程,把来自R的每个元组<a,b>转换成一个键值对<b, <R,a>>,其中的键就是属性B的值。把关系R包含到值中,这样做使得我们可以在Reduce阶段,只把那些来自R的元组和来自S的元组进行匹配。类似地,使用Map过程,把来自S的每个元组<b,c>,转换成一个键值对<b,<S,c>>

(3)所有具有相同B值的元组被发送到同一个Reduce进程中,Reduce进程的任务是,把来自关系R和S的、具有相同属性B值的元组进行合并

(4)Reduce进程的输出则是连接后的元组<a,b,c>,输出被写到一个单独的输出文件中

* 9、Hadoop1.0的主要问题,从1.0到2.0主要有哪些改进 ***

(1)Hadoop1.0主要问题:

① 抽象层次低,需人工编码

② 表达能力有限

③ 开发者自己管理作业(Job)之间的依赖关系

④ 难以看到程序整体逻辑

⑤ 执行迭代操作效率低

⑥ 资源浪费(Map和Reduce分两阶段执行)

⑦ 实时性差(适合批处理,不支持实时交互式)

(2)从1.0到2.0主要改进:

① 单一名称节点,存在单点失效问题 ——>设计了HDFS HA,提供名称节点热备机制

② 单一命名空间,无法实现资源隔离——>设计了HDFS Federation,管理多个命名空间

③ MapReduce的资源管理效率低——>设计了新的资源管理框架YARN   编程实现文件合并和去重操作

    对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。

    输入文件A的样例如下:

       20150101     x

       20150102     y

       20150103     x

       20150104     y

       20150105     z

       20150106     x

    1

    2

    3

    4

    5

    6

输入文件B的样例如下:

       20150101      y

       20150102      y

       20150103      x

       20150104      z

       20150105      y

    1

    2

    3

    4

    5

根据输入文件A和B合并得到的输出文件C的样例如下:

       20150101      x

       20150101      y

       20150102      y

       20150103      x

       20150104      y

       20150104      z

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值