大数据之数仓术语（面试篇）

南潇如梦

已于 2022-03-22 11:50:14 修改

阅读量2.2k

点赞数 1

分类专栏：大数据那些事文章标签：面试大数据 big data

于 2022-03-19 23:34:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45682261/article/details/123605369

版权

本文主要介绍了大数据面试中涉及的数仓相关术语，包括表的种类、监控工具、流处理、数据分层、OLAP与OLTP的区别、数据仓库模型以及数仓与数据库的差异。重点讲解了RDBMS、Prometheus、Grafana、Flume Interceptor、Spark Streaming与Structured Streaming、数仓分层（如ODS、DW、DWD、DWB、DWS、DIM、DM层）以及数据模型（星型、雪花、星系和Data Vault模型）等概念。

摘要由CSDN通过智能技术生成

特别说明：大数据的面试内容是根据大数据领域组件（hadoop、zookeeper、redis、java、scala等），数仓等许多内容。

本篇还是以数仓为主，我还是会在有时间的时候把数仓的知识点更完。

1、RDBMS ：关系型数据库

2、Prometheus、Grafana ：都是组件监控

3、工作流,其实也调度工具（常用）：azkaban、oozie、airflow

4、日志区分：行为日志、内容日志、业务数据

行为日志：用户与平台交互产生的数据

业务日志：是由公司服务端业务系统`产生的数据

日内日志：公司在不同的业务需求产生的

5、关于二次开发编写Flume Interceptor的原因

hive是可以自动识别json格式的message，但是无法识别base64加密的message。需要开发一个Flume Interceptor进行解码

6、sparkstreaming和structured stareaming

Spark Streaming是spark初代流处理框架，使用的微批的形式来进行流处理，每个时间间隔内的数据为一个RDD，源源不断对RDD进行处理来实现流式计算。

Structured Streaming：

采用无界的Table的概念，流数据相当于往一个表上不断的去追加行。基于Spark SQL引擎来实现。使用大多数的Spark SQL的函数。

包含时间戳

7、Process Time : 流处理引擎接受到数据的时间

8、Event Time ：事件真正发生的时间

9、

维度：指审视数据的角度，它通常是数据记录的一个属性，例如时间、地点等。

1 维度是度量的环境，用来反映业务的一类属性，这类属性的集合构成一个维度，也可以称为实体对象。

2 维度属于一个数据域，如地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容),维度所包含的表示维度的列信息为维度属性，维度属性常用来进行数据过滤、数据分类、维度描述信息（报表中title中的文字描述）

3 维度是指可指定不同值的对象的描述性属性或特征，一般是一种离散数据。比如时间维度上的每一个独立的日期，或者商品维度上的每一件独立的商品。因此统计时可以把维度值相同的记录聚合在一起，然后应用聚合函数做累加、平均、去重复计数等聚合计算.

例如

城市名称：北京、上海、广州

人名：张三、李四

班级：1班、2班

最低0.47元/天解锁文章

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
大数据之数仓术语（面试篇）

特别说明：本文续更。1、RDBMS ：关系型数据库2、Prometheus、Grafana ：都是组件监控3、工作流,其实也调度工具（常用）：azkaban、oozie、airflow4、日志区分：行为日志、内容日志、业务数据行为日志：用户与平台交互产生的数据业务日志：是由公司服务端业务系统`产生的数据日内日志：公司在不同的业务需求产生的5、关于二次开发编写Flume Interceptor的原因hive是可以自动识别json格式的message，但是无法识别base64
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。