第一章
1.三次信息化浪潮标志,解决了什么问题
2.信息技术为大数据技术的提升为大数据时代提供了技术支撑。
3.讲一下数据产生经历了哪三个阶段
4.加下大数据发展经历了几个阶段?
5.大数据什么样的特性?
6.科学研究经历了哪几种范式?
7.大数据对思维方式的影响有哪三点
8.大数据技术有哪些层面?
9.*大数据有哪几种计算模式?
10.云计算有几种不同的服务模式。
11.云计算的关键技术
12.物联网从技术架构上分为哪几层?
13.物联网关键技术
14.讲一下大数据和云计算,物联网三者之间的联系与区别。
第二章
1.Hadoop是基于什么语言开发?
2.Hadoop里面有两个核心组件分别为
3.HDFS和MapReduce分别是对哪一个文件系统的开源的实现
4.Hadoop有哪些特性
第三章
1.HDFS要实现一些目标。
2.HDFS在设计时候的一些局限性。
3.HDFS在存储文件的时候是以什么为单位进行?
4.为什么HDFS要用块去进行存储?有哪些好处?
5.在HDFS 1.0里面一个块的大小是多少兆
6.讲一下HDFS里面包含哪些节点?
7.名称节点里面有哪些重要的数据结构?
8.FsImage这里面存储了什么信息?
9.EditLog里面存储什么信息
10.名称节点它存储的这个数据节点的位置信息,这在哪儿存的
11.讲一下名称节点在启动的时候会执行什么样的操作?
12.讲一下数据节点主要是做什么工作的
13.第二名称节点有哪些作用?
14.第二名称节点是怎么样合并名称节点上的EditLog和FsImage?
15.第二名称节点可以当做名称节点的热备份吗?
16.讲一下HDFS体系结构有什么样的局限性?
17.多副本方式优点
18.读数据的时候,是从哪个节点获取到数据块的地址?
第四章
1.HBase是哪一个工具的开源实现
2.HBase是一个什么样的数据?
3.HBase映射表的一个数据,我们应该用几个坐标对它来进行定位。
4.HBase以什么为单位存储或分解(以列族为单位)
5.HBase包含哪些功能组件?
6.Master服务器主要是干什么的
7.Region的概念
8.Region是怎么样进行定位的(三层结构)
9.Zoonkeeper服务器作用
10.Region服务器上面有一些重要的文件或者说数据结构包含哪些?
11.用户读写数据时候是怎么样去工作的
第五章
1.NoSQL的特点
2.NoSQL有哪四大类型?
3.NoSQL三大基石
4.CAP各代表什么,告诉我们什么
5.Base基本含义
6.ACID性质
第七章*
1.MapReduce设计理念
2.Map和Reduce函数输入输出
3.MapReduce执行过程
4.Shuffle分为哪两个部分的操作
5.Map端Shuffle会有什么步骤
6.Reduce端Shuffle三个步骤
第八章
1.HDFS 2.0相对于HDFS120增加了一些特性。
2.HDFS的HA解决了HDFS 1.0的什么问题?
3.HDFS怎么样解决单点失效问题
4.HDFS联邦解决了HDFS1.0什么问题
5.HDFS采用什么机制解决问题(158页)
6.HDFS HA和HDFS联邦区别
7.YARN相对于MapReduce的优势
8.YARN的目标
9.Pig,Tez,Kafka的作用
第九章
1.数据仓库概念
2.数据仓库体系结构
3.传统数据仓库面临的挑战
4.Hive底层依赖什么计算数据,处理数据
5.Hive包含哪三个模块
6.Impala和Hive分别适用于什么样的场景?或者Impala提升了什么
7.Impala由哪三个部分组成
8.Impala和Hive的区别
第十章
1.spark四个特点
2.spark优点
3.spark生态有哪些组建,有什么作用
4.RDD等七个重要概念(197页),相互关系(198页)
5.Spark架构包括什么
6.Spark采用Excutor的优点
7.RDD可以被修改吗?不可以
8.RDD两类数据运算
9.RDD三个特性
10.RDD的依赖关系,如何决定如何划分阶段
第十章
1.什么是流计算
2.流计算三个处理流程
3.Spark Streaming和Storm的区别