自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 数仓项目

1. 项目搭建 我们的数仓项目主要分为流量域和业务域,数据仓库的分层为5层,分别是DIM,ODS,DWD,DWS,ADS下面做一下详细介绍. 流量域: 是指用户行为日志的数据 业务域: 是指业务系统的数据 DIM层: 存放一些维度表,比如地理维度表等等 ODS层: 存放流量域和业务域的原始数据 DWD层: 存放明细表,这些数据是由ODS层经过ETL得到的数据 DWS层: 为轻聚合层,是由DWD层的数据进行轻聚合得到的,同时DWS层中的数据分为各种主题,这样会对报表层ADS报表层做一个更好的支持 ADS层:

2020-08-17 18:24:54 2093

原创 kafka的了解

1.Kafka的特点 1.解耦:   允许你独⽴的扩展或修改两边的处理过程,只要确保它们遵守同样的接⼝约束。 2.冗余:   消息队列把数据进⾏持久化直到它们已经被完全处理,通过这⼀⽅式规避了数据丢失⻛险。许多消息队 列所采⽤的"插⼊-获取-删除"范式中,在把⼀个消息从队列中删除之前,需要你的处理系统明确的指出该消 息已经被处理完毕,从⽽确保你的数据被安全的保存直到你使⽤完毕。 3.扩展性:   因为消息队列解耦了你的处理过程,所以增⼤消息⼊队和处理的频率是很容易的,只要另外增加处理过 程即可。 4.灵活性

2020-07-03 12:30:01 111

原创 kafka基本命令

启动zk zkServer.sh start zkServer.sh status 在所有节点启动Kafka kafka-server-start.sh -daemon /bigdata/kafka_2.12-2.4.1/config/server.properties 查看Kafka的topic kafka-topics.sh --list --zookeeper localhost:2181 创建topic kafka-topics.sh --zookeeper localhost:2181 --cre

2020-07-03 12:18:39 2302

原创 hive基础

1 建表语法 create table if not exists tb_name( 列的属性 数据类型 , 列的属性 数据类型… ) row format delimited fields terminated by “分隔符” ; 2 什么是分区表 为什么有分区表 分区表就是使用分区字段对数据进行分区,方便快速查找数据。 当数据量很大时,一张表已经不适合装载全部数据, 同时很多场景的查询操作都是对部分数据的查询, 这时用分区表会节省很多时间 3 创建分区表 二级分区表 导入数据 create t

2020-06-22 11:24:35 130

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除