对Hadoop期中考试解析(英才2023.11.20)

1.Google三驾马车

GFS    MapReduce  Bigtable

2.Hadoop2.x相比于1增加了哪些组件?

Yarn

3.GFS存储的文件都被分割成固定大小的块,每个块都会复制到多个块服务器上(可靠性),请问默认会存储几份?

3

4.下面哪个目录保存了Hadoop集群的命令(比如启动Hadoop)?

sbin

5.HDFS首先把大数据文件切分成若干个小的数据块,再把这些数据分别写入不同的结点。这些负责保存文件数据的结点被称为?

DataNode

6.名称节点是HDFS的管理者,它的职责有3个方面。

负责管理和维护HDFS命名空间,负责管理DataNode上的数据块,接受客户端的请求

7.YARN Web界面默认占用哪个端口?

8088

8.MapReduce的特点?

易于编程,良好的扩容性,高容错性

9.什么场景适合采用列式存储?

单列,获取频率较高,对于大数据环境,利用数据压缩和线性扩展,事务使用率不高,数据量非常大。

10.Reducce的个数由什么决定?

Partition分区个数

11.

        

core-site.xml

12.

/mydemo下的目录数量、文件数量、文件总结大小

13.

14.

15.

16.

17.

18.

19.

20.

21.

22.

23.

24.

25.

26.

MapReduce模型的要点包括以下几个方面:
1. MapReduce由两个阶段组成:Map阶段和Reduce阶段。
2. Map阶段将大任务分解为若干个小任务,每个小任务可以并行计算,彼此间几乎没有依赖关系。
3. Reduce阶段对Map阶段的结果进行全局汇总。
4. MapReduce适用于大规模数据处理场景,可以实现分布式计算。
5. MapReduce的核心思想是“分而治之”,即将复杂的任务分解为若干个简单的任务来并行处理。
6. MapReduce的实现可以使用Hadoop等分布式计算框架。

27.

HDFS文件读取过程如下:
1.客户端向NameNode请求文件的位置信息。
2.NameNode返回包含文件块所在DataNode的位置信息的块映射表。
3.客户端根据块映射表直接连接到DataNode上,向其请求文件块。
4.DataNode返回所请求的文件块。
5.客户端将接收到的文件块组合成完整的文件。

28.

Flume主要由三个部分组成:Source、Channel和Sink。它们各自的作用如下:

1. Source:负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

2. Channel:是Source和Sink之间的缓冲区,用于存储Flume接收到的数据。Channel可以是内存或磁盘,可以配置容量和事务等属性。

3. Sink:负责将数据从Channel中取出并写入到目标存储系统中,如HDFS、HBase、Elasticsearch等。Sink组件可以对数据进行转换、过滤和格式化等操作。

29.

pig -x local

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值