《大数据技术原理与应用(第3版)》期末复习——第三章分布式文件系统HDFS习题

分布式文件系统

分布式文件系统的结构

1、名称节点(“主节点”): 负责文件和目录的创建、删除和重命名等,同时管理着数据节点和文件块之间的映射关系。
2、数据节点(“从节点”): 负责数据的存储和读取。在存储时,由名称节点分配存储位置,然后由客户端把数据直接写入相应的数据节点;在读取时,客户端从名称节点获得数据节点和文件块之间的映射关系,然后就可以到相应位置访问文件块。数据节点也要根据名称节点的命令创建、删除和复制数据块。

HDFS相关概念

1、名称节点的两个核心数据结构是FsImage和EditLog.
2、第二名称节点的功能有两方面:首先,它可以完成EditLog与FsImage的合并操作,减小EditLog文件大小,缩短名称节点的重启时间;其次,它可以作为名称节点的“检查点”,保存名称节点中的元数据信息。
3、HDFS的通信协议:
客户端与名称节点 之间使用客户端协议进行交互。
名称节点和数据节点 之间使用数据节点协议进行交互。
客户端与数据节点 的交互通过远程过程调用RPC来实现。

练习题

1【单选题】
HDFS集群采用主从结构,节点主要包括________和数据节点。
A、从节点
B、文件节点
C、名称节点
D、元数据节点
答案:C

2【单选题】
对HDFS通信协议的理解错误的是________。
A、名称节点和数据节点之间则使用数据节点协议进行交互
B、客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互
C、HDFS通信协议都是 构建在IoT协议基础之上的
D、客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的
答案:C

3【单选题】
采用多副本冗余存储的优势包含________
A、保证数据可靠性
B、节约存储空间
C、加快数据传输速度
D、容易检查数据错误
答案:B

4【单选题】
假设已经配置好环境变量,启动HDFS和关闭HDFS的命令分别是________
A、start-hdfs.sh,stop-hdfs.sh
B、start-dfs.sh,stop-dfs.sh
C、start-dfs.xml,stop-dfs.xml
D、start-hdfs.sh,stop-dfs.sh
答案:B

5【单选题】
分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫________,另一类存储具体数据叫 ________。
A、名称节点,数据节点
B、从节点,主节点
C、数据节点,名称节点
D、名称节点,主节点
答案:A

6【单选题】
下面关于分布式文件系统HDFS的描述正确的是________
A、分布式文件系统HDFS是Google Bigtable的一种开源实现
B、分布式文件系统HDFS比较适合存储大量零碎的小文件
C、分布式文件系统HDFS是一种关系型数据库
D、分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现
答案:D

7【单选题】
查看HDFS系统版本 的Shell命令,以下正确的是________
A、hadoop -ver
B、hdfs version
C、dfsadmin version
D、hdfs -ver
答案:B

8【单选题】
查看HDFS系统运行状态的Shell命令,以下正确的是________。
A、hdfs dfsadmin -report
B、hadoop –report
C、dfsadmin -report
D、hdfs -report
答案:A

9【单选题】
HDFS的名称节点保存两个核心的数据结构是________。
A、FsImage和Edit.new。
B、Map和EditLog
C、FsImage和EditLog。
D、FsImage和HLog
答案:C

10【单选题】
HDFS中使用Shell命令对Hadoop进行操作时,________实现了创建文件的功能。
A、hdfs dfs -mkdir /file.txt
B、hadoop fs -ls /file.txt
C、hadoop fs -touchz /file.txt
D、hadoop dfs -cat /file.txt
答案:C

11【单选题】
采用HDFS Java API进行程序设计时,创建FileSystem对象的语句是________
A、FileSystem fs = new FileSystem( );
B、FileSystem fs = FileSystem.Create( );
C、FileSystem fs = FileSystem.getInstance();
D、FileSystem fs = FileSystem.get(uri, conf);
答案:D

12【多选题】
以下对名称节点理解正确的是________。
A、名称节点的数据保存在内存中
B、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
C、名称节点通常用来保存元数据
D、名称节点用来负责具体用户数据的存储
答案:ABC

13【多选题】
以下对数据节点理解正确的是________。
A、数据节点的数据保存在磁盘中
B、数据节点用来存储具体的文件内容
C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作
D、数据节点通常只有一个
答案:ABC

14【多选题】
HDFS只设置唯一一个名称节点带来的局限性包括________。
A、隔离问题
B、命名空间的限制
C、集群的可用性
D、性能的瓶颈
答案:ABCD

15【多选题】
以下HDFS相关的shell命令不正确的是________。
A、hadoop fs -ls :显示 指定的文件的详细信息
B、 hadoop dfs mkdir :创建 指定的文件夹
C、hdfs dfs -rm :删除路径 指定的文件
D、hadoop fs - copyFromLocal :将路径指定的文件或文件夹复制到路径指定的文件夹中
答案:BD
HDFS相关的shell格式: hadoop fs 、 hdfs dfs

16【多选题】
HDFS中的NameNode节点用于存放元数据,数据内容包含________。
A、文件与数据块的映射表
B、每个数据块的内容
C、数据块与数据节点的映射表
D、客户端硬件配置数据
答案:AC

17【多选题】
对HDFS内的文件进行操作,以下说法正确的是________。
A、HDFS提供了Shell的操作接口
B、不允许对文件进行列表查看
C、文件操作命令与Linux相似
D、采用Windows系统对文件进行操作
答案:AC

18【多选题】
HDFS与传统数据存储对比,主要特点包含________。
A、数据冗余,硬件容错
B、流式的数据访问
C、适合存储大量小文件
D、适合存储大量大文件
答案:ABD

19【多选题】
Hadoop存储系统HDFS的体系结构的设计目标包含________。
A、自动检测处理硬件错误
B、流式访问数据
C、转移计算,不移动数据位置
D、简单数据一致性模型
答案:ABCD

20【多选题】
HDFS的适用性和局限性,以下说法正确的是________。
A、适合数据批量读写、吞吐量高
B、不适合交互式应用,低延迟很难满足
C、适合一次写入多次读取、顺序读写
D、不支持多用户并发写相同文件
答案:ABCD

21【多选题】
HDFS中第二名称节点的作用是________。
A、名称节点的热备份 HDFS2.0 HDFS HA的处于"待命"的名称节点提供热备份
B、合并FsImage和EditLog文件
C、作为名称节点的检查点
D、解决HDFS的隔离问题 HDFS 联邦
答案:BC

22【填空题】
HDFS的命名空间包括目录、文件和________。
答案: 块

23
【判断题】
用户可以通过”hadoop fs –put ”命令获取远端文件数据。
答案:×

24
【判断题】
Hadoop存储系统HDFS的文件是分块存储,每个文件块默认大小为32MB。默认一个文件块大小为64MB
答案:×

25
【判断题】
HDFS采用冗余存储的策略,为提高系统容错性,每个数据块必须采用2份副本。
答案:×

  • 9
    点赞
  • 129
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
大数据技术应用题库 单选题: 1从大量数据中提取知识的过程通常称为(A)。 a。 。 数据挖掘 b。 。 人工智能 c. . 数据清洗 d。 。 数据仓库 2下列论据中,能够支撑"大数据无所不能"的观点的是(A)。 A、互联网金融打破了传统的观念和行为 B、大数据存在泡沫 C、大数据具有非常高的成本 D、个人隐私泄露与信息安全担忧 3数据仓库的最终目的是(D)。 a。 。 收集业务需求 b。 . 建立数据仓库逻辑模型 c. . 开发数据仓库的应用分析 d. 。 为用户和业务部门提供决策支持 4大数据处理技术和传统的数据挖掘技术最大的区别是(A). a。 。 处理速度快(秒级定律) b. . 算法种类更多 c. . 精度更高 d. 。 更加智能化 5大数据的起源是(C)。 a。 . 金融 b. . 电信 c. 。 互联网 d。 . 公共管理 6大数据不是要教机器像人一样思考。相反,它是(A)。 a。 . 把数学算法运用到海量的数据上来预测事情发生的可能性 b。 . 被视为人工智能的一部 c。 . 被视为一种机器学习 d. . 预测与惩罚 7人与人之间沟通信息、传递信息的技术,这指的是(D)。 a. 。 感测技术 b。 。 微电子技术 c. 。 计算机技术 d。 . 通信技术 8数据清洗的方法不包括(D). a. . 缺失值处理 b。 . 噪声数据清除 c. 。 一致性检查 d. . 重复数据记录处理 9。 下列关于舍恩伯格对大数据特点的说法中,错误的是(D) A。 数据规模大 B. 数据类型多样 C。 数据处理速度快 D. 数据价值密度高 10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这 指的是(D)。 a. 。 富数据 b。 . 贫数据 c. 。 繁数据 d. 。 大数据 11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联 分析,从中发现新知识、创造新价值、提升新能力的(D)。 a. 。 新一代信息技术 b。 。 新一代服务业态 c。 . 新一代技术平台 d. . 新一代信息技术和服务业态 12万维网之父是(C) A。 彼得·德鲁克 B. 舍恩伯格 C。 蒂姆·伯纳斯—李 D. 斯科特·布朗 13下列演示方式中,不属于传统统计图方式的是(D)。 A、柱形图 B、饼状图 C、曲线图 D、网络图 14当前社会中,最为突出的大数据环境是(A)。 A、互联网 B、物联网 C、综合国力 D、自然资源 15可以对大数据进行深度分析的工具是(C). A、浅层神经网络 B、Scala C、深度学习 D、MapReduce 16大数据的起源是(C)。 A、金融 B、电信 C、互联网 D、公共管理 17智慧城市的构建,不包含(C)。 A、数字城市 B、物联网 C、联网监控 D、云计算 18大数据的4V特征中的Volume是指(D)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 19大数据的4V特征中的Variety是指(C)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 20大数据的4V特征中的Velocity是指(B)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 21下列关于大数据的分析理念的说法中,错误的是(D). A、在数据基础上倾向于全体数据而不是抽样数据 B、在分析方法上更注重相关分析而不是因果分析 C、在分析效果上更追究效率而不是绝对精确 D、在数据规模上强调相对数据而不是绝对数据 22大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进 行(B)。 A、数据信息 B、专业化处理 C、速度处理 D、内容处理 23大数据的核心就是(B)。 A、告知与许可 B、预测 C、匿名化 D、规模化 24人与人之间沟通信息、传递信息的技术,这指的是(D)。 A、感测技术 B、微电子技术 C、计算机技术 D、通信技术 25大数据的最显著特征是(A)。 A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高 28大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联 分析,从中发现新知识、创造新价值、提升新能力的(D)。 A、新一代信息技术 B、新一代服务业态 C、新一代技术平台 D、新一代信息技术和服务业态 29 下列关于普查的缺点的说法中,正确的是(A)。 A. 工作量较大,容易导致调查内容有限、产生重复和遗漏现象 B. 误差不易被控制 C. 对样本的依赖性比较强 D。 评测结果不够稳定 30 下列关于聚类挖掘技术的说法中,错误的是(B) A不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B需求同类数据的内容相似度尽可能小 C要求不同类数据
系统中,Hadoop与MapReduce A:大数据技术原理应用第三章主要介绍了分布式文件系统和MapReduce并行计算框架中的Hadoop技术,包括Hadoop的概念、特点、架构、组件、安装、使用等方面。在分布式文件系统中,Hadoop使用HDFS作为其基础架构,实现文件存储和访问的高可用性和可扩展性,能够支持大规模的数据存储和处理。而MapReduce是Hadoop提供的一种分布式并行计算框架,能够将大规模数据处理任务分解成多个小任务,在分布式计算环境中进行并行计算,从而提高数据处理能力和效率。 Hadoop的组件包括HDFS、YARN和MapReduce。其中,HDFS作为文件存储系统,YARN是Hadoop的资源管理框架,用于管理集群资源,对作业进行调度和监控。MapReduce是Hadoop的分布式计算框架,其基本思想是将计算任务分解成多个小任务,并在分布式计算环境中进行并行计算。在MapReduce执行过程中,Map函数用于将输入数据划分为若干份,并由多个Map任务同时处理,生成键值对;Reduce函数用于对Map任务生成的键值对进行汇总和统计,得到最终的结果。 Hadoop的安装和使用需要先配置环境,然后下载和安装Hadoop软件包,进行集群配置和启动,具体的安装和使用过程在第三章中有详细说明。 总结来说,Hadoop技术是大数据处理中非常重要的基础技术之一,能够支持大规模数据存储和处理,提高数据处理能力和效率。MapReduce并行计算框架是Hadoop的重要组件,能够将大规模数据处理任务分解成多个小任务,在分布式计算环境中进行并行计算。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值