![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
文章平均质量分 82
败给你的黑色幽默丶
if i say you're the one would you believe me;
if i ask you to stay would you show me the way
展开
-
【数据仓库】【第十章】ODS层
1.创建数据库现在数仓环境已经搭建好了;数据也都已经采集到hdfs上了;1)启动hive[atguigu@hadoop102 hive]$ bin/hive2)显示数据库hive (default)> show databases;3)创建数据库hive (default)> create database gmall;4)使用数据库hive (default)> use gmall;ODS层1.用户行为数据(1)建表分析一行数据是什么:一条日志有哪些字段:原创 2022-01-06 00:41:20 · 4759 阅读 · 0 评论 -
【数据仓库】【第九章】从0-1搭建数据仓库
建模思想其实就是指导我们如何建表搭建数仓的每一层都需要解决两个问题:1.确定建立哪些表2.确定表的表结构(1)确定每行数据是什么(2)确定表的字段(3)确定表的分区规划ODS层1.ods层职责保留原始数据不做任何处理2.ods层如何建表?ods数据有两种,一种是用户行为日志,一种是业务数据2.1 用户行为日志(1)确定每行数据是什么用户行为日志的数据形式是hdfs上的压缩文件,每行数据是一条完整的日志(2)确定表的字段只需要一个字段即可,该字段内容.原创 2021-11-23 23:44:14 · 1456 阅读 · 1 评论 -
【数据仓库】【第八章】【数据仓库建模方法论 - 维度建模】【维度表】拉链表
拉链表使用场景拉链表一般应用于维度表中;当维度表中的每日发生变化的记录数比较少,但是我们又想存储表中所有的历史数据,这时候可以用拉链表什么是拉链表拉链表会在维度表中添加两个字段,一个是该行记录的生效时间,一个是该行记录的失效时间,记录每条信息的生命周期;对于新增的记录来说,生效时间就是当天,失效时间为无穷大对于失效的记录来说,比如说7月3号对记录进行了修改,此时将该记录的失效时间改为7月2号,表示其最后有效日期;并且新增一条记录起始时间为7月三号,失效时间为无穷大拉链表的好处在这种原创 2022-01-07 01:39:14 · 1467 阅读 · 0 评论 -
【数据仓库】【第八章】【数据仓库建模方法论 - 维度模型 】
1. 维度建模概述维度建模理论为Ralph-Kimball 倡导的建模方法;维度模型以数据分析作为出发点,不遵循三范式,故数据存在一定的冗余。维度模型面向业务,将业务通过事实和维度呈现出来。事实对应业务过程,维度对应业务过程发生时所处的环境;表结构简单,故查询简单,查询效率较高。维度建模中,将表分为两类:事实表和维度表维度建模的特点就是以事实表为核心,一个事实表代表一个业务过程;2. 事实表事实表中的每行数据代表一个业务事件(下单、支付、退款、评价等)“事实”这个术语表示的是业务原创 2022-02-10 22:20:06 · 1621 阅读 · 0 评论 -
【数据仓库】【第八章】【数据仓库建模方法论 - ER模型 】
第一章 数仓分层数仓6层架构数据集市数据集市有两种,一种是从属型数据集市,其数据源来自于数仓;另一种是独立型数据集市,数据源直接对接业务数据库;从属型的数据集市的搭建开发周期较长,独立型不依赖于数仓,搭建周期短;从属型数据集市的数据来源都是经过数仓,因此都是经过统一处理过的;独立型的各自为主,部门之间数据一致性比较差,会造成数据孤岛的情况数仓命名规范表命名ODS层命名为ods_表名DIM层命名为dim_表名DWD层命名为dwd_表名DWS层命名为dws_表名DWT层命名为d原创 2021-10-29 02:15:02 · 990 阅读 · 0 评论 -
【数据仓库】【第七章】数仓架构 、分层、规范
1. 数据仓库核心架构2. 数仓分层3. 数据集市数据集市有两种,一种是从属型数据集市,其数据源来自于数仓;另一种是独立型数据集市,数据源直接对接业务数据库;从属型的数据集市的搭建开发周期较长,独立型不依赖于数仓,搭建周期短;从属型数据集市的数据来源都是经过数仓,因此都是经过统一处理过的;独而立型的各自为主,部门之间数据一致性比较差,会造成数据孤岛的情况4. 数仓规范表命名ODS层命名为ods_表名DIM层命名为dim_表名DWD层命名为dwd_表名DWS层命名为dws原创 2022-02-10 20:05:51 · 257 阅读 · 0 评论 -
【数据仓库】【第六章】开发工具DataGrip使用
下载直接去idea官网下载安装激活使用datagrip连接Hive客户端1)启动datagrip后的初始页面2)连接hive客户端3)启动hiveserver2[atguigu@hadoop102 ~]$ hiveserver2 which: no hbase in (/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/opt/module/jdk1.8.0_212/bin:/opt/module/hadoop-3.1.3/bin原创 2022-01-05 22:07:09 · 899 阅读 · 0 评论 -
【数据仓库】【第六章】 数仓环境搭建
Hive环境搭建数仓中所有数据交给hive管理计算交给SparkSQL1. 两种计算模式比较Hive on Spark:Hive既作为存储元数据Hive负责SQL的解析优化语法是HQL语法执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive :SparkSQL对接Hive数据源Hive只作为存储元数据Spark负责SQL解析优化语法是Spark SQL语法优缺点:SparkSQL底层API是DataSe/DataFrame,h.原创 2022-01-03 16:43:42 · 739 阅读 · 0 评论 -
【数据仓库】【第五章】业务数据采集模块搭建
业务数据采集架构业务数据采集就是将mysql中数据采集到HDFS中数据采集分为实时和批量:实时采集工具:canal\maxwell批量采集工具:sqoop\datax批量同步:一天同步一次,无法获取数据在一天中的中间状态;实时同步可以实时同步:原理是通过mysql的binlog同步数据Sqoop基本使用sqoop安装在mysql所在机器上Sqoop help 可以查看命令海量数据的传输工具,可以在关系型数据库和hdfs之间传输数据;关系型数据库到hdfs是导入,反之为导出;原创 2022-01-03 15:32:08 · 1032 阅读 · 0 评论 -
【数据仓库】【第四章】熟悉业务数据
熟悉业务数据熟悉业务数据,业务数据都存储在mysql中,也就是熟悉这些表;熟悉业务数据的方法(1)宏观看整个数据库:有哪些表(2)熟悉每张表的表结构:看一个表,和其大致有关联的表,要关注每个字段是什么,还要关注每行代表什么(3)结合具体业务过程,分析每张表的数据是如何变化的1.3.3 表关系梳理(1)收藏和加购业务收藏\加购\领用优惠券业务是一样的,用户和商品都是多对多的关系,通过收藏表和加购表关联起来(2)订单相关业务表(3)支付业务(4)退单业务(5)退款业务原创 2021-11-10 23:55:17 · 1070 阅读 · 0 评论 -
【数据仓库】【第四章】电商业务介绍
业务数据1.电商业务简介1.1 电商业务流程(用户购物流程)(1)检索物品(2)商品曝光(3)商品详情页面(4)加购(5)结算1.2 电商常识1.2.1 SKU和SPU1.2.2 平台属性和销售属性1.电商业务简介1.1 电商业务流程(用户购物流程)(1)检索物品来到电商首页,要检索想要的东西,有两种检索方式:分类检索和搜索栏检索分类有层级关系,有一级分类、二级分类、三级分类(2)商品曝光(3)商品详情页面(4)加购(5)结算结算必须在登陆的状态下才可以进行;1.2 电商常原创 2022-01-03 16:34:16 · 1176 阅读 · 0 评论 -
【数据仓库】【第三章】行为日志采集模块搭建
日志采集模块搭建1.安装软件2.flume采集组件选型2.1 log文件-flume-kafka1)Source2)Channel3)flume配置json拦截器2.2 kafka -flume - hdfs`1.flume部署规划``2.组件选型``3.配置flume``4.时间戳拦截器`3. 启动采集测试行为日志采集模块就是框中的架构:从日志服务器中的日志文件,将数据采集到hadoop中存储1.安装软件1.安装hadoop3.1.3版本2.安装zookeeper3.安装kafka4.安装原创 2021-10-07 23:54:21 · 460 阅读 · 0 评论 -
【数据仓库】【第三章】行为日志数据源
1.目标数据我们要收集和分析的数据主要包括:页面数据事件数据曝光数据启动数据错误数据1.1 页面页面数据主要记录一个页面的用户访问情况,包括访问时间、停留时间、页面路径等信息。一个页面我们所能获取的信息有:字段名称 字段描述page_id 页面idhome("首页"),category("分类页"),discovery("发现页"),top_n("热门排行"),favor("收藏页"),search("搜索页"),good_list("商品列表页"),good_d原创 2021-10-07 21:04:37 · 300 阅读 · 0 评论 -
【数据仓库】【第二章】项目需求和数仓架构设计
需求和架构设计1.项目需求1.1 需求来源1.2 需求概览1.3 技术选型1.3.1 技术选型考虑因素1.3.2 数据采集技术选择1.3.3 数据存储技术选择1.3.4 计算引擎的技术选型1.3.5 即席查询技术选型1.3.6 数据可视化技术选型1.3.7 任务调度技术选型1.3.8 集群服务监控技术选型1.3.9 元数据管理技术选型1.3.10 权限管理框架技术选型2.数仓架构设计2.1系统数据流程设计2.2 框架版本选型2.3 服务器选型2.4 集群规模2.5 集群资源规划设计项目中有哪些需求,以及原创 2021-10-02 04:47:26 · 390 阅读 · 0 评论 -
【数据仓库】 【第一章】 认识数仓
数据仓库概念数据仓库( Data Warehouse )(1)公司搭建数仓的目的存储公司的数据,通过对这些数据进行提炼和分析,来为企业制定决策可以帮助企业,改进业务流程、提高产品质量等简而言之,就是为公司的战略做数据支撑(2)数仓的主要工作存储存储公司海量数据计算就是SQL分析通过对数据清洗、计算,最后形成报表,给老板看(3)数仓的数据来源1. 业务数据就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交原创 2021-10-01 19:25:46 · 547 阅读 · 0 评论