1、简述目前企业不同应用场景下所使用的大数据计算模式。
批处理计算:大规模数据的批处理
流计算:流数据的实时计算
图计算:大规模图结构数据处理
查询分析计算:大规模数据的存储管理和查询分析
2、Yarn有什么用?
资源调度管理
3、名词解释:Hadoop
分布式系统基础架构,有两大核心:MapReduce 和 HDFS
4、名词解释:Spark
内存计算框架
5、名词解释:Flink
流计算框架
6、简述Hadoop生态系统
HDFS:分布式文件系统、YARN:资源调度器、MapReduce:离线计算、Spark:内存计算、HBase:分布式数据库、Hive:数据仓库、Zoopkeeper:分布式协调服务......
7、如何解决windows与Linux操作系统文件传输的问题?
使用ftp软件
8、你认为Hadoop版本与jdk版本是否有联系?
有
9、可否重复执行 format命令?
不可以
10、如何测试Hadoop已经安装成功?
使用 jps 命令,看到namenode、datanode、secondarynamenode
11、请分别简述单机版、伪分布式、分布式Hadoop
单机版:只在一台机器上运行,存储采用的是本地文件系统,未使用HDFS
伪分布式:存储采用HDFS,但名称节点和数据节点在同一台机器上
分布式:存储采用HDFS,名称节点和数据节点在不同机器上
12、HDFS能不能满足实时性数据处理需求?谈谈你的观点
不能,因为它一次会读取一批数据,存在很大的延迟。
13、简述HDFS主要组件
名称节点(NameNode):集群管家,存储元数据,
hadoop总结
最新推荐文章于 2024-07-27 10:13:06 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)