自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 数仓分层概念

日活:对DWD层里面的启动表的mid字段进行groupby去重,有多少个mid就表示有多少个启动过APP,那只要启动过APP的用户就代表了当日活跃。2)DWD层 (数据明细层) : 对ods层数据进行清洗,去除空值,脏数据,超过极限范围的数据,行式存储改为列式存储,改变压缩格式。面向实际的数据需求,以DWD或者DWS层的数据为基础,组成的各种统计报表。结构和粒度与ODS层保持一致,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据),也有公司叫DWI。2、DWD层(明细数据层)

2022-09-27 13:55:27 1013 1

原创 flume kafka hive spark flink笔记

根据其部署模式的不同,可以分为local,standalone,yarn,mesos等模式。Impala和Hive采用相同的SQL语法、ODBC驱动程序和用户接口,可统一部署Hive和Impala等分析工具,同时支持批处理和实时查询。在远程模式下,所有的Hive客户端都将打开一个到元数据服务器的连接,该服务器依次查询元数据,元数据服务器和客户端之间使用Thrift协议通信。Hive支持三种不同的元存储服务器,分别为:内嵌式元存储服务器、本地元存储服务器、远程元存储服务器,每种存储方式使用不同的配置参数。

2022-09-27 13:17:20 958

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除