- 博客(4)
- 收藏
- 关注
原创 数仓项目
1. 项目搭建 我们的数仓项目主要分为流量域和业务域,数据仓库的分层为5层,分别是DIM,ODS,DWD,DWS,ADS下面做一下详细介绍. 流量域: 是指用户行为日志的数据 业务域: 是指业务系统的数据 DIM层: 存放一些维度表,比如地理维度表等等 ODS层: 存放流量域和业务域的原始数据 DWD层: 存放明细表,这些数据是由ODS层经过ETL得到的数据 DWS层: 为轻聚合层,是由DWD层的数据进行轻聚合得到的,同时DWS层中的数据分为各种主题,这样会对报表层ADS报表层做一个更好的支持 ADS层:
2020-08-17 18:24:54 2093
原创 kafka的了解
1.Kafka的特点 1.解耦: 允许你独⽴的扩展或修改两边的处理过程,只要确保它们遵守同样的接⼝约束。 2.冗余: 消息队列把数据进⾏持久化直到它们已经被完全处理,通过这⼀⽅式规避了数据丢失⻛险。许多消息队 列所采⽤的"插⼊-获取-删除"范式中,在把⼀个消息从队列中删除之前,需要你的处理系统明确的指出该消 息已经被处理完毕,从⽽确保你的数据被安全的保存直到你使⽤完毕。 3.扩展性: 因为消息队列解耦了你的处理过程,所以增⼤消息⼊队和处理的频率是很容易的,只要另外增加处理过 程即可。 4.灵活性
2020-07-03 12:30:01 111
原创 kafka基本命令
启动zk zkServer.sh start zkServer.sh status 在所有节点启动Kafka kafka-server-start.sh -daemon /bigdata/kafka_2.12-2.4.1/config/server.properties 查看Kafka的topic kafka-topics.sh --list --zookeeper localhost:2181 创建topic kafka-topics.sh --zookeeper localhost:2181 --cre
2020-07-03 12:18:39 2302
原创 hive基础
1 建表语法 create table if not exists tb_name( 列的属性 数据类型 , 列的属性 数据类型… ) row format delimited fields terminated by “分隔符” ; 2 什么是分区表 为什么有分区表 分区表就是使用分区字段对数据进行分区,方便快速查找数据。 当数据量很大时,一张表已经不适合装载全部数据, 同时很多场景的查询操作都是对部分数据的查询, 这时用分区表会节省很多时间 3 创建分区表 二级分区表 导入数据 create t
2020-06-22 11:24:35 130
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人