大数据之数仓术语(面试篇)

特别说明:大数据的面试内容是根据大数据领域组件(hadoop、zookeeper、redis、java、scala等),数仓等许多内容。

本篇还是以数仓为主,我还是会在有时间的时候把数仓的知识点更完。

1、RDBMS :关系型数据库

2、Prometheus、Grafana :都是组件监控

3、工作流,其实也调度工具(常用):azkaban、oozie、airflow

4、日志区分:行为日志、内容日志、业务数据

行为日志:用户与平台交互产生的数据

业务日志:是由公司服务端业务系统`产生的数据

日内日志:公司在不同的业务需求产生的

5、关于二次开发编写Flume Interceptor的原因

hive是可以自动识别json格式的message,但是无法识别base64加密的message。需要开发一个Flume Interceptor进行解码

6、sparkstreaming和structured stareaming

Spark Streaming是spark初代流处理框架,使用的微批的形式来进行流处理,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流式计算。

Structured Streaming:

采用无界的Table的概念,流数据相当于往一个表上不断的去追加行。基于Spark SQL引擎来实现。使用大多数的Spark SQL的函数。

包含时间戳

7、Process Time : 流处理引擎接受到数据的时间

8、Event Time :事件真正发生的时间

9、

维度:指审视数据的角度,它通常是数据记录的一个属性,例如时间、地点等。

1 维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对象。

2 维度属于一个数据域,如地理维度(其中包括国家、地区、 省以及城市等级别的内容)、时间维度(其中包 括年、季、月、周、日等级别的内容),维度所包含的表示维度的列信息为维度属性,维度属性常用来进行数据 过滤、数据分类、维度描述信息(报表中title中的文字描述)

3 维度是指可指定不同值的对象的描述性属性或特征,一般是一种离散数据。比如时间维度上的每一个独立的 日期, 或者商品维度上的每一件独立的商品。 因此统计时可以把维度值相同的记录聚合在一起, 然后应用 聚合函数做累加、 平均、 去重复计数等聚合计算.

例如

城市名称:北京、上海、广州

人名:张三、李四

班级:1班、2班

性别:男、女

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值