特别说明:大数据的面试内容是根据大数据领域组件(hadoop、zookeeper、redis、java、scala等),数仓等许多内容。
本篇还是以数仓为主,我还是会在有时间的时候把数仓的知识点更完。
1、RDBMS :关系型数据库
2、Prometheus、Grafana :都是组件监控
3、工作流,其实也调度工具(常用):azkaban、oozie、airflow
4、日志区分:行为日志、内容日志、业务数据
行为日志:用户与平台交互产生的数据
业务日志:是由公司服务端业务系统`产生的数据
日内日志:公司在不同的业务需求产生的
5、关于二次开发编写Flume Interceptor的原因
hive是可以自动识别json格式的message,但是无法识别base64加密的message。需要开发一个Flume Interceptor进行解码
6、sparkstreaming和structured stareaming
Spark Streaming是spark初代流处理框架,使用的微批的形式来进行流处理,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流式计算。
Structured Streaming:
采用无界的Table的概念,流数据相当于往一个表上不断的去追加行。基于Spark SQL引擎来实现。使用大多数的Spark SQL的函数。
包含时间戳
7、Process Time : 流处理引擎接受到数据的时间
8、Event Time :事件真正发生的时间
9、
维度:指审视数据的角度,它通常是数据记录的一个属性,例如时间、地点等。
1 维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对象。
2 维度属于一个数据域,如地理维度(其中包括国家、地区、 省以及城市等级别的内容)、时间维度(其中包 括年、季、月、周、日等级别的内容),维度所包含的表示维度的列信息为维度属性,维度属性常用来进行数据 过滤、数据分类、维度描述信息(报表中title中的文字描述)
3 维度是指可指定不同值的对象的描述性属性或特征,一般是一种离散数据。比如时间维度上的每一个独立的 日期, 或者商品维度上的每一件独立的商品。 因此统计时可以把维度值相同的记录聚合在一起, 然后应用 聚合函数做累加、 平均、 去重复计数等聚合计算.
例如
城市名称:北京、上海、广州
人名:张三、李四
班级:1班、2班
性别:男、女