wsxbaa-CSDN博客

原创数仓项目

1. 项目搭建我们的数仓项目主要分为流量域和业务域,数据仓库的分层为5层,分别是DIM,ODS,DWD,DWS,ADS下面做一下详细介绍. 流量域: 是指用户行为日志的数据业务域: 是指业务系统的数据 DIM层: 存放一些维度表,比如地理维度表等等 ODS层: 存放流量域和业务域的原始数据 DWD层: 存放明细表,这些数据是由ODS层经过ETL得到的数据 DWS层: 为轻聚合层,是由DWD层的数据进行轻聚合得到的,同时DWS层中的数据分为各种主题,这样会对报表层ADS报表层做一个更好的支持 ADS层:

2020-08-17 18:24:54 2093

原创 kafka的了解

1.Kafka的特点 1.解耦：　　允许你独⽴的扩展或修改两边的处理过程，只要确保它们遵守同样的接⼝约束。 2.冗余：　　消息队列把数据进⾏持久化直到它们已经被完全处理，通过这⼀⽅式规避了数据丢失⻛险。许多消息队列所采⽤的"插⼊-获取-删除"范式中，在把⼀个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从⽽确保你的数据被安全的保存直到你使⽤完毕。 3.扩展性：　　因为消息队列解耦了你的处理过程，所以增⼤消息⼊队和处理的频率是很容易的，只要另外增加处理过程即可。 4.灵活性

2020-07-03 12:30:01 111

原创 kafka基本命令

启动zk zkServer.sh start zkServer.sh status 在所有节点启动Kafka kafka-server-start.sh -daemon /bigdata/kafka_2.12-2.4.1/config/server.properties 查看Kafka的topic kafka-topics.sh --list --zookeeper localhost:2181 创建topic kafka-topics.sh --zookeeper localhost:2181 --cre

2020-07-03 12:18:39 2302

原创 hive基础

1 建表语法 create table if not exists tb_name( 列的属性数据类型 , 列的属性数据类型… ) row format delimited fields terminated by “分隔符” ; 2 什么是分区表为什么有分区表分区表就是使用分区字段对数据进行分区，方便快速查找数据。当数据量很大时，一张表已经不适合装载全部数据，同时很多场景的查询操作都是对部分数据的查询，这时用分区表会节省很多时间 3 创建分区表二级分区表导入数据 create t

2020-06-22 11:24:35 130

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 数仓项目

原创 kafka的了解

原创 kafka基本命令

原创 hive基础

空空如也

空空如也

原创数仓项目