Hadoop期末考试选择题整合--助力期末绩点提高!

本文整理了Hadoop期末考试中的选择题,涵盖了HDFS配置、服务启动、MapReduce、NameNode、HBase等多个核心知识点,帮助考生巩固理解Hadoop生态系统的重要概念和操作。内容包括HDFS的默认工作目录、配置文件、SSH服务启动命令、Hadoop服务启动选项、NameNode的功能、HDFS Shell命令、MapReduce相关API等,旨在提升考生的期末绩点。
摘要由CSDN通过智能技术生成
  1. HDFS默认的当前工作目录是/user/$USER, fs.default.name的值需要在哪个配置文件内说明?
    A、mapred-site.xml
    B、hdfs_site.xml
    C、core-site.xml
    D、以上均不是

  2. 如何启动ssh服务?
    A、service sshd start
    B、service ssh start
    C、/etc/init.d/ssh status
    D、service ssh status

  3. 关于服务启动正确的是()
    A、sbin/hadoop-daemon.sh namenode start
    B、sbin/start-hdfs.sh
    C、sbin/hadoop-daemon.sh start-yarn.sh
    D、 sbin/hadoop-daemon.sh start resourcemanager

  4. 下列( )不属于NameNode的功能。
    A、 保存Block信息,汇报Block信息
    B、metadata信息在启动后会加载到内存
    C、提供名称查询服务
    D、保存metadata信息

  5. 关于HDFS Shell操作不正确的是( )
    A、Hadoop fs -get [-ignorecrc] [-crc] 复制文件到本地文件系统
    B、Hadoop fs -chmod 改变文件的权限
    C、bin/hdfs dfs –ls –R / 表示只查看hdfs上根目录下的目录与文件
    D、bin/Hadoop fs –put [-txt] / 表示从本地上传文件到hdfs上

  6. 关于HDFS API的说法错误的是( )
    A、Configuration可以通过设置配置文件读取类路径来实现
    B、在FileSystem系统中文件或目录的名字,使用反斜杠\进行分隔字符串
    C、Hadoop通过使用FileSystem类来提供文件系统操作
    D、FileSystem不能直接实例化,可以通过get方法获取该对象

  7. MapReduce 是一个分布式计算框架,它经历了两个版本MRv1和MRv2。 MRv2重用了MRv1的编程模型和数据处理引擎,运行时环境则完全重写,改为由yarn提供服务,yarn将TaskTrack分解为ResourceManager、ApplicationMaster。MapReduce是一个分布式计算框架,它的第二个版本记为MRv2,以下描述组成部分错误的是( )
    A、运行时环境(JobTrack和ResourceManager、ApplicationMaster)
    B、数据处理引擎(MapTask和ReduceTastk)
    C、编程模型(Map和Reduce)
    D、 运行时环境(JobTrack和TaskTrack)

  8. 关于MapReduce处理类说法错误的是( )
    A、InputFormat把输入文件切分位为InputSplit,并把InputSplit读到Mapper中进行处理
    B、CombineFileInputFormat相对于大量的小文件来说,更合适处理少量的大文件
    C、MapFileOutputFormat将key和value写入MapFile中,在写入的时候不必保证记录是按key值顺序写入的
    D、KeyValueTextInputFormat适合当输入数据的每一行是两列,并用tab分离的格式的文件

  9. 关于map阶段,下面说法错误的是( )
    A、数据划分组由partitioner组件完成
    B、输入数据由mapper组件处理
    C、输入数据格式由inputformat解析
    D、 shuffle阶段是map阶段的一个子阶段

  10. MapReduce框架中,在Map和Reduce之间的combiner的作用是( )
    A、对中间格式进行压缩
    B、对中间结果进行混洗
    C、对Map的输出结果排序 
    D、对中间过程的输出进行本地的聚集

  11. MapReduce是一种编程模型,用户只需通过编写()函数来实现自己的计算逻辑。
    A、Map、Reduce
    B、SQL
    C、Partition
    D、逻辑

  12. MapReduce适用于( )
    A、任意可在Windows server 2008上运行的程序
    B、可以串行处理的应用程序
    C、可以并行处理的应用程序 ​
    D、任意应用程序

  13. 下面关于Hive的说法正确的是( )
    A、 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文本映射为一张数据库表,并提供简单的SQL查询功能
    B、Hive可以直接使用SQL语句进行相关操作
    C、Hive能够在大规模数据集上实现低延迟快速的查询
    D、Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成

  14. 关于Hive元数据描述错误的是( )
    A、Hive元数据一般存放在HDFS上
    B、Hive元数据信息即数据的描述信息,比如存储位置、时间、大小之类
    C、Hive的数据分为真实的数据和真实数据的元数据
    D、Hive元数据信息存放配置可以通过修改hive-site.xml

  15. 关于Hive的安装错误的是( )
    A、安装Hive时,首先确保Hadoop已经安装完毕并且能正确使用
    B、如果使用自带的数据库,需要进行数据库的相关配置
    C、 目前Hive主要是支持Oracle和MySQL数据库
    D、hive-evn.sh文件名是固定的,不得随意修改

  16. Hive的集合类型不包括如下哪个 ?( )
    A、set
    B、map
    C、array
    D、struct

  17. 下列关于桶表说法错误的是( )
    A、Hive桶表是对数据进行哈希取值,然后放到不同文件中存储
    B、数据加载到桶表时,会对字段取哈希值,然后与桶的数据取模
    C、 Hive桶表主要用于小样本的取样
    D、Hive桶表可以进行分桶抽样

  18. 下列哪个不是Hive的内置函数的是( )
    A、abs
    B、 upper
    C、array
    D、concat

  19. 下面关于UDF编程的说法不正确的是( )
    A、org.apache.hadoop.hive.ql.exec.UDF是字段转换操作的基类,提供对于简单数据类型进行转换操作。在实现转换操作时,需要重写evaluate()方法。
    B、org.apache.hadoop.hive.ql.udf.generic.GenericUDF提供更为复杂的处理方法类
    C、UDF包括对于字段进行转换操作的函数、聚集函数,表生成函数,生成多列或多行数据
    D、继承UDF更加有效率,因为UDF class需要Hive使用反射的方式去实现

  20. 关于Hive的数据导出操作不正确的是( )
    A、insert overwrite local directory ‘path’ select q1;将数据保存到本地
    B、insert into directory ‘hdfs_path’ select * from dept;将数据保存到HDFS上
    C、可以使用Linux命令执行HDFS,使用-e、-f,然后重定向到指定的文件
    D、可以使用Sqoop框架将数据导出

  21. 下列关于HBase特点说法错误的是?
    A、毫秒级查询
    B、高扩展性
    C、支持多条件查询
    D、对于为null的列并不占用存储空间

  22. 下列关于HBase平台部署描述错误的是?
    A、HBASE_MANAGES_ZK=true,表示由hbase自己管理zookeeper,不需要单独的部署zookeeper
    B、hbase.rootdir 用于指定HBase数据的存储位置
    C、hbase.zookeeper.property 指定zookeeper数据存储目录,默认路径是/tmp,如果不配置,重启之后数据不会被清空
    D、hbase.zookeeper.quorum 指定使用zookeeper的主机地址

  23. HFile数据格式中的MetaIndex字段用于()?
    A、Meta块的长度
    B、Meta块的起始点
    C、Meta块数据内容
    D、Meta块的结束点

  24. 下列关于HBase Shell操作描述错误的是( )?
    list_namespace查看HBase命名空间
    scan ‘hbase:namespace’ namespace存放表中所有命名空间
    scan ‘hbase:meta’ meta存放所有HFile信息
    list_namespace_tables ‘hbase’ 查看命名空间下的表

  25. 关于HBase Get()方法说法错误的是()?
    使用列表参数的get()方法与使用列表参数的put方法对应,用户可以一次性请求获取多行数据
    addFamily()方法使get请求不仅能取得一个指定的列族,还能够取得多个列族
    虽然一次get()操作只能允许取一行数据,但不会限制一行当中多少列或者多少单元格
    get方法与put方法一样,get方法不仅仅只能获取单行数据,也能获取多行数据

  26. 关于ResultScanner类说法错误的是()?
    A、当用户扫描到尾或到终止行时,由于没有足够的行来填充数据,返回的结果数组可能会小于既定长度
    B、ResultScanner把扫描操作转换为类似的get操作,它将每一行数据封装成一个Result实例,并将所有的Result实例放入一个迭代器中
    C、扫描操作通过一次RPC请求返回所有匹配的行
    D、调用close()方法释放所有由扫描控制的资源

  27. 比较操作的过程传入参数时,关于其中参数可用值说法错误的是()?
    LESS_OR_EQUAL –> 小于等于
    GREATER_OR_EQUAL ->大于等于
    NO_OP -> 排除最小的值
    NOT_EQUAL –> 不等于

  28. 关于单计数器说法错误的是()?
    使用0时可以得到当前计数器的值
    用负值时不会减少当前计数器的值
    用负值时可以减少当前计数器的值
    使用正值是增加计数器的值

  29. 关于Observer说法不正确的是()?
    A、负责处理master服务器的所有回调函数,对应的操作为DDL比如createTable,deleteTable,addCoumn等
    B、Observer类似触发器,在特定事件发生时执行,分为RegionObserver,MasterObserver,WALObserver
    C、除了region本身的生命周期时间,regionObserver还处理客户端调用事件,包括所有DML,如get,put,delete等
    D、管理region级别的操作,操作分为:region生命周期变化和客户端API调用

  30. 关于下列表属性说法错误的是()?
    A、void setMaxFileSize(long maxFileSize),该方法表示指定在一个表内部的region能够增长到的最大尺寸
    B、对于特定的表指定一个read-only选项,如果标志被设置为true,你就只能从表中读取数据,而根本不能修改它
    C、表名必须不以“.”(句点)或“-”(连字符)开头。此外,它只能包含拉丁字母、数字或汉字,还有“_”(下划线),“-”(连字符),或“.”(句点)
    D、给HBase添加一个列族: void addFamily ( HColumnDescriptor family )

  31. 关于API建表的相关方法错误的是()?
    A、void createTable(HTableDescriptor desc,byte[] startKey,byte[] endKey,int numRegions)
    B、void createTable(HTableDescriptor desc,byte[][] splitKeys)
    C、void createTable(HTableDescriptor desc)
    D、void createTableAsync(HTableDescriptor desc)

  32. 关于HBase与MapReduce集成说法错误的是()?
    A、一个MapReduce作业中的源和目标都可以是HBase表,但不能够在一个作业中同时使用HBase作为输入和输出
    B、使用MapReduce作业作为过程的一部分,该作业可以使用HBase进行读取或写入
    C、用户可以在存储组合结果的不同表中查询数据。用户从哪里读数据和向哪里写数据是不受限制的
    D、通过MapReduce的API实现可以以任何形式访问HBase的代码

  33. 下列哪个不属于实时计算的产品
    Storm
    Impala
    Spark Streaming
    Flink

  34. 下列关于storm.yaml参数解释错误的是()?
    A、supervisor.slot.ports: 每一台worker机器,你用这个配置来指定多少workers运行在哪台机器
    B、storm.Zookeeper.servers: 这是一个为Storm集群配置的Zookeeper集群的主机列表
    C、java.library.path: 这是Storm使用的本地库(ZeroMQ和JZMQ)载入路径
    D、storm.local.dir: Nimbus和Supervisor守护程序需要一个本地磁盘目录存储大量状态(像jars,conf,其它),每台机器都创建这些目录,赋可写权限

  35. 下列关于Storm启动进程说法正确的是()?
    sbin/storm nimbus
    nohup bin/storm nimbus &
    nohup bin/storm nimbus
    bin/storm nimbus &

  36. 下列关于Spout API说法错误的是()?
    A、Spout类里面最重要的方法是nextTuple,用于循环发射数据
    B、Activate()和deactivate():Spout可以被暂时激活和关闭
    C、Ack():处理失败tuple回调方法
    D、Close():在spout关闭前执行,但是并不能得到保证其一定执行,kill-9时不执行,Storm kill [toponame]时执行

  37. 下列关于Hama结构说法错误的是()?
    A、Hama主要有三部分构成:BSPMaster 、GroomServers 和Zookeeper
    B、BSPMaster与Groom Server两者之间通讯使用非常简单的LIFO(后进先出)原则对计算的任务进行分配、调度
    C、GroomServer在HDFS或者其他文件系统上运行,通常,GroomServer与数据结点在一个物理结点上运行,以保证获得最佳性能
    D、Zookeeper用来管理BSPPeer的同步,用于实现Barrier Synchronisation机制

  38. 下列关于Hama的启动进程说法正确的是()?
    bin/start-all.sh
    bin/start-bspd.sh
    sbin/start-all.sh
    sbin/start-bspd.sh

  39. 下列关于典型的四大类型NoSQL数据库描述错误的是()
    HBase数据库属于文档数据库
    典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库
    文档数据库缺乏统一的查询语法
    键值数据库无法存储结构化信息,条件查询效率较低

  40. 下列关于集合相关的MongoDB Shell操作描述错误的是()?
    A、查询当前数据库下所有集合:show collections
    B、创建固定大小的集合:db.createCollection(,{capped:true,size:100000})
    C、创建集合:db.createCollection()
    D、删除集合:drop.

  41. 以下哪一项不属于Hadoop可以运行的模式?
    伪分布式模式
    互联模式
    分布式模式
    单机模式

  42. 关于NameNode和Secondary NameNode的说法错误的是
    数据的通信使用的是ftp协议
    NameNode上实现的NamenodeProtocol用于二者命令通信
    数据通信使用的是http协议
    协议的容器是jetty

  43. 下面选项中哪两个进程是分别负责管理HDFS数据存储和备份元数据信息的?
    NameNode、DataNode
    NameNode、Jobtracker
    NameNode、SecondaryNameNode
    Datanode,SecondaryNameNode

  44. MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法错误的是()
    实现Writable接口的类是值
    实现WritableComparable接口的类可以是值或键
    Hadoop的基本类型Text并不实现WritableComparable接口
    键和值的数据类型可以超出Hadoop自身支持的基本类型

  45. 关于Partitioner的说法不正确的是( )
    A、Partitioner是partitioner的基类, 如果需要定制partitioner也需要继承该类。
    B、Partitioner的作用是对Mapper产生的中间结果进行分片
    C、Parttitioner间接影响Reducer阶段的复杂均衡
    D、Partitioner只提供了一个方法getPartition(Text key,Text value,int numPartitions)

  46. MapReduce包括()和()两个阶段,可以进行海量数据分割,任务分解与结果汇总,从而完成海量数据的并行处理。
    映射、化简
    分布、化简
    分析、映射
    化简、映射

  47. 在安装Hive时,需要在下面哪个文件配置元数据相关信息?( )
    hive-exec-log4j.properties
    hive-site.xml
    hive-env.sh
    hive-log4j.properties

  48. 下面关于Hive的安装说法不正确的是?( )
    A、如果要支持多会话,或者多用户的话,需要使用一个独立的数据库(比如mysql,比较常用),这种配置方式称为本地metastore配置。
    B、Metastore的作用是:客户端连接metastore服务,metastore再去连接MySQL数据库来存取元数据。
    C、使用metastore服务,就可以有多个客户端同时链接,且这些客户端不需要知道MySQL数据库的用户名和密码。
    D、内嵌模式使用Derby数据库来存储元数据,需要开启metastore服务

  49. Hive查询语言中的算术操作符的返回结果是( )类型的。
    Int
    Number
    String
    Bigint

  50. 关于外部表的说法错误的是( )
    当删除外部表的时候,metastore中的元数据信息会丢失,但是外部目录总指向数据不会丢失
    metastore中的描述信息不可以作为外部数据信息的一个引用
    当删除一个外部表时,仅删除该链接
    外部表和内部表在元数据的组织上是相同的,而实际数据的存储则有较大的差异

  51. 下面关于Hive编写UDF函数的时候需要注意的地方说法不正确的是( )
    A、当我们在hive中使用自己定义的UDF的时候,hive会调用类中的evaluate方法来实现特定的功能
    B、导出项目为jar文件,项目的jdk和集群的jdk可以不一致
    C、自定义函数调用过程为:添加jar包->创建临时函数->调用->输出查询结果
    D、UDF常用Text/LongWrite等类型,不推荐使用java类型

  52. 关于Hive的数据导入操作不正确的是( )
    A、load data local inpath ‘/ student.txt’ into table stu;从本地导入到hive的指定数据表中(导入数据)
    B、insert into table testA Partition(date=’2019-01-01’) select * from testB where id =1;将testA的数据导入到testB
    C、load data inpath ‘/student.txt’ into table testB partition(date=’2019-01-01’);HDFS文件导入到Hive表中
    D、create table testC as select name ,code from testB;创建表过程中从其他表导入

  53. HBase来源于哪篇博文
    The Google File System
    BigTable
    MapReduce
    Chubby

  54. HBase全分布式模式最好需要()个节点?
    1
    4
    2
    3

  55. 下列关顾store与HFile说法错误的是()?
    每个Strore又由一个memStore和0至多个StoreFile组成
    Trailer–这一段是定长的,保存了每一段的偏移量
    File Info 段–HFile的元信息,不被压缩,用户也可以在这一部分添加自己的元信息
    Meta Block 段-保存表中的数据,这部分可以被压缩

  56. 下列关于HBase Shell操作描述错误的是( )?
    A、describe 'student’查看表详情
    B、deleteall ‘student’ 操作用于删除’student’表中所有的数据
    C、在添加数据时,HBase会自动为添加的数据添加一个时间戳,故在需要修改数据时,只需直接添加数据,HBase即会生成一个新的版本,从而完成“改”操作
    D、删除表有两步,第一步先让该表不可用,第二步删除表。直接drop未disable的表会失败

  57. 关于Bytes类说法错误的是()?
    A、Static long toLong(byte[] bytes,int offset,int length), 此方法表示用户可以输入一个字节数组、一个偏移值和一个长度值
    B、Bytes类不支持原生Java类型到字节数组的互转
    C、Static long toLong(byte[] bytes), 此方法表示用户可以输入一个字节数组
    D、Static long toLong(byte[],int offset), 此方法表示用户可以输入一个字节数组再加一个偏移值

  58. HBase中的批量加载底层使用()实现
    Hive
    Bloom Filter
    Coprocessor
    MapReduce

  59. 下列选项中哪一个不是Dedicated Filter(专用过滤器) ()?
    SkipFilter
    PrefixFilter
    TimestampsFilter
    PageFilter

  60. 关于协处理器说法不正确的是()?
    A、协处理器有两种:observer和endpoint
    B、observer可以让你对数据处理过程进行精细的控制
    C、endpoint允许你在HBase里建立定制的API
    D、observer允许你扩展集群的能力,对客户端应用开放新的运算命令;endpoint允许集群在正常的客户端操作过程中可以有不同的行为表现

  61. 关于HBaseAdmin提供的基本接口说法错误的是()?
    A、Bo

  • 12
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
清软Hadoop期末考试题库涵盖了Hadoop的各个方面,包括基本概念、HDFS、MapReduce等内容。以下是一个简要的期末考试题库示例: 1. 解释Hadoop的特点以及其在大数据处理中的作用。 Hadoop是一个分布式计算平台,具有可扩展性、容错性和高吞吐量的特点。它可以处理大规模数据集,并通过将数据分布在集群的各个节点上来进行并行处理,从而提高处理效率。 2. 说明Hadoop分布式文件系统(HDFS)的工作原理。 HDFS是Hadoop中用于存储大规模数据集的分布式文件系统。它通过将大文件切割成块(Block)并分布在集群的不同节点上来实现高可靠性和高吞吐量。HDFS使用主从架构,其中NameNode是主节点负责管理文件系统的元数据,DataNode是从节点负责存储和管理数据块。 3. 解释MapReduce的概念及其在Hadoop中的应用。 MapReduce是一种编程模型,用于并行处理大规模数据集。在Hadoop中,MapReduce将大规模数据集切分成小的数据块,并在集群的不同节点上并行执行Map和Reduce操作,以高效地进行数据处理和分析。 4. 总结Hadoop的生态系统以及各个组件的作用。 Hadoop生态系统包括HDFS、MapReduce、YARN、Hive、Pig、HBase等组件。HDFS用于存储大规模数据集,MapReduce用于并行计算,YARN是用于资源管理的框架,Hive提供了似SQL的查询语言,Pig是一种高级数据流编程语言,HBase是一个高性能的NoSQL数据库。 5. 解释Hadoop的容错性是如何实现的。 Hadoop通过数据冗余和自动故障恢复机制来实现容错性。数据冗余是指将数据块复制多次并分布在不同节点上,以防止单点故障。当节点发生故障时,Hadoop会自动从其他副本中恢复丢失的数据块,从而实现容错性。 需要注意的是,这只是一个示例题库,并不包括所有可能的考试题目。期末考试题库的具体内容会根据课程的深度和广度进行调整。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱吃香菜的斌斌

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值