![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
离线数仓
文章平均质量分 83
自学大数据的菜鸡
这个作者很懒,什么都没留下…
展开
-
1.离线数仓—全流程调度实现
全流程调度前言一、数据准备1.用户行为日志2.业务数据二、工作流调度实操1.DolphinScheduler集群模式1.1启动和登录DolphinScheduler1.2上传脚本1.3组件分发1.4配置环境变量并分发1.5 创建工作流2.DolphinScheduler单机模式2.1 启动DolphinScheduler2.2 安全中心配置前言前面学习了工作流调度工具DolphinScheduler,下面对数仓项目进行应用。一、数据准备1.用户行为日志1)启动日志采集通道,包括:Flume、Ka原创 2022-03-07 16:36:33 · 709 阅读 · 0 评论 -
数仓工具——DolphinScheduler任务调度工具
数仓学习——DolphinScheduler任务调度工具前言一、DolphinScheduler简介1.DolphinScheduler概述2.DolphinScheduler组件3.DolphinScheduler核心架构二、DolphinScheduler部署说明1.软硬件环境要求1.1 操作系统版本要求1.2 服务器硬件要求2.部署模式2.1单机模式2.2 伪集群模式2.3 集群模式三、DolphinScheduler集群模式部署1.集群规划2.前置准备工作3.解压DolphinScheduler安装原创 2022-03-07 13:50:24 · 20431 阅读 · 4 评论 -
四、离线数仓—全流程调度
数据仓库全流程调度前言一、工作流分析1.工作流依赖关系2.工作流问题前言前面完成的数据仓库的所有部分,但是每天运行脚本是有一定的顺序的,且每天要定时执行,因此要对这整个流程进行一个调度,这里先对数仓。一、工作流分析1.工作流依赖关系依赖关系说明:1)日志的数据是实时监控的,不需要定期调度,同时mysql中增量表也是实时监控的,也不需要定期调度,只有mysql中的全量表的业务表需要定期上传数据到HDFS中。2)日志数据和业务数据库中的数据放到HDFS后,每天需要定时将数据放到ODS层中,因此原创 2022-03-05 20:33:06 · 648 阅读 · 0 评论 -
7.ADS层数据导出
ADS层数据导出前言一、报表数据导出1.MySQL建库建表1.1 创建数据库1.2 创建表1.3 建表注意事项2.数据导出2.1 编写DataX配置文件2.2 DataX配置文件生成脚本2.3 DataX配置文件的执行2.4 每日数据导出脚本前言前面完成了ADS层所有表的设计和实现,下面就要将这些数据导出到MySQL数据库中,方便可视化的使用。一、报表数据导出1.MySQL建库建表我们要将HDFS里的统计数据导出到MySQL中,首先要建数据库,再建相应的表。1.1 创建数据库CREATE D原创 2022-03-05 18:41:54 · 2034 阅读 · 0 评论 -
6.6 离线数仓—ADS层数据装载脚本
ADS层设计开发前言一、数据装载脚本前言前面完成了ADS层所有表的设计和开发,为了方便使用,编写一个数据装载脚本。一、数据装载脚本脚本名称:dws_to_ads.sh脚本内容:#!/bin/bashAPP=gmall# 如果是输入的日期按照取输入日期;如果没输入日期取当前时间的前一天if [ -n "$2" ] ;then do_date=$2else do_date=`date -d "-1 day" +%F`fiads_activity_stats="i原创 2022-03-05 15:09:19 · 340 阅读 · 0 评论 -
6.5 离线数仓—ADS层流量主题需求的实现
ADS层设计和开发前言一、ADS层设计1.分区规划2.数据存储二、各渠道流量统计1.需求说明2.需求分析3.建表语句4.需求实现4.1初始思路4.2初始思路实现4.3进一步的思路三、路径分析1.需求说明2.需求分析3.建表语句前言前面完成了DWS层的设计和开发,下面进行ADS层流量主题的设计和开发。一、ADS层设计1.分区规划ADS层没有进行分区规划,因为ADS层一天产生的数据量比较小,如果按天进行分区,会产生很多个小文件。2.数据存储ADS层没有进行列式存储和数据压缩。列式存储的方式更方原创 2022-03-05 13:02:17 · 490 阅读 · 0 评论 -
6.4 离线数仓—ADS层活动及优惠券主题需求的实现
ADS层设计开发前言一、最近30天发布的活动的补贴率1.需求说明和分析2.建表语句二、使用步骤1.需求说明和分析2.读入数据总结前言前面完成了ADS层交易主题相关需求的设计和开发,下面进行ADS层活动及优惠券主题的设计和开发。一、最近30天发布的活动的补贴率1.需求说明和分析1)需求说明统计粒度指标说明活动补贴率参与促销活动的订单明细活动减免金额总和/原始金额总和2)字段分析根据需求可知,该表要包含以下字段:统计日期、活动ID、与活动相关的维度(至少有活动名称原创 2022-03-05 10:38:14 · 280 阅读 · 0 评论 -
6.3 离线数仓—ADS层交易主题需求的实现
ADS层设计开发前言一、交易综合统计1.需求说明和分析2.建表语句3.数据装载前言前面完成了ADS层商品主题相关需求的设计和开发,下面进行ADS层交易主题的设计和开发。一、交易综合统计1.需求说明和分析1)需求说明统计周期指标说明最近1、7、30日订单总额订单最终金额最近1、7、30日订单数略最近1、7、30日订单人数略最近1、7、30日退单数略最近1、7、30日退单人数略2)字段分析根据需求可以,该表应包含以下字段:统原创 2022-03-05 08:45:31 · 269 阅读 · 0 评论 -
6.2 离线数仓—ADS层商品主题需求的实现
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档ADS层设计和开发前言一、最近7/30日各品牌复购率1.需求说明和分析2.建表语句3.数据装载二、各品牌商品交易统计1.需求说明和分析2.建表语句3.数据装载4.语句说明三、各品牌商品交易统计1.需求说明和分析2.建表语句3.数据装载四、各分类商品购物车存量TOP31.需求说明和分析2.建表语句3.数据装载前言前面完成了ADS层用户主题相关需求的设计和开发,下面进行ADS层商品主题的设计和开发。一、最近7/30日各品牌复购率1.需原创 2022-03-04 19:17:29 · 280 阅读 · 0 评论 -
6.1 离线数仓—ADS层用户主题需求的实现
ADS层设计和开发前言一、用户变动统计1.需求说明2.需求分析3.建表语句4.数据装载二、用户留存率1.需求说明2.需求分析3.建表语句4.数据装载4.1我的思路4.2 给的思路三、用户新增活跃统计1.需求说明2.需求分析3.建表语句4.数据装载4.1 我的思路4.2 给的思路四、用户行为漏斗分析1.需求说明2.需求分析3.建表语句4.数据装载4.1 我的思路4.2 给的思路前言前面完成了DWS层流量主题需求的设计和开发,下面进行ADS层用户主题的设计和开发。一、用户变动统计1.需求说明该需求包原创 2022-03-03 22:24:35 · 314 阅读 · 0 评论 -
5.5 离线数仓—DWS层数据装载脚本
DWS层数据装载脚本前言一、DWS最近1日汇总表1.首日装载脚本2.每日装载脚本二、DWS最近n日汇总表1.数据装载脚本三、DWS历史至今td汇总表1.首日数据装载脚本2.每日数据装载脚本前言前面完成了DWS层所有表的设计和开发,为了方便使用,准备一下数据装载的脚本。一、DWS最近1日汇总表1.首日装载脚本脚本名称:dwd_to_dws_1d_init.sh脚本内容:#!/bin/bashAPP=gmallif [ -n "$2" ] ;then do_date=$2else原创 2022-03-02 15:05:05 · 349 阅读 · 0 评论 -
5.4 离线数仓—DWS层交易域、用户域汇总表设计实现
DWS层设计开发前言一、交易域用户粒度订单历史至今汇总表1.建表语句2.首日数据装载3.每日数据装载二、交易域用户粒度支付历史至今汇总表1.建表语句2.首日数据装载3.每日数据装载三、用户域用户粒度登录历史至今汇总表1.建表语句2.首日装载语句3.每日装载语句前言前面完成了所有1d和nd表的设计和开发,下面进行td表的设计和开发。一、交易域用户粒度订单历史至今汇总表1.建表语句DROP TABLE IF EXISTS dws_trade_user_order_td;CREATE EXTERNA原创 2022-03-02 14:07:26 · 440 阅读 · 0 评论 -
5.3 离线数仓—DWS层流量域汇总表设计实现
DWS层设计开发前言一、流量域会话粒度页面浏览汇总表1.最近1日汇总表1.1 建表语句1.2 数据装载二、流量域访客页面粒度页面浏览汇总表1.最近1日汇总表1.1 建表语句1.2 数据装载2.最近n日汇总表2.1 建表语句2.2 数据装载前言前面完成了交易域DWS层设计开发,下面进行流量域相关表的设计和开发。一、流量域会话粒度页面浏览汇总表1.最近1日汇总表1.1 建表语句说明:这里必须要做维度退化操作DROP TABLE IF EXISTS dws_traffic_session_page原创 2022-03-02 12:30:55 · 308 阅读 · 0 评论 -
5.2 离线数仓—DWS层交易域汇总表的设计实现
DWS层设计开发前言一、交易域用户商品粒度订单汇总表1.用户商品粒度订单表的说明2.最近1日汇总表2.1 建表语句2.2 首日数据装载2.3 每日数据装载3.最近n日汇总表3.1 建表语句3.2 数据装载二、交易域用户商品粒度退单汇总表1.最近1日汇总表1.1 首日数据装载1.2 每日数据装载2.最近n日汇总表2.1 建表语句2.2 数据装载三、交易域用户粒度订单汇总表1. 最近1日汇总表1.1 建表语句1.2 首日数据装载1.3 每日数据装载2. 最近n日汇总表2.1 建表语句2.2 数据装载四、交易域用原创 2022-03-02 12:30:32 · 890 阅读 · 0 评论 -
5.1 离线数仓—DWS层设计分析
DWS层设计开发前言一、DWS层设计分析1.设计要点1.1 设计依据1.2 存储格式1.3 命名规范二、DWS层举例分析1.思维导图构建2.构建派生指标表格3.汇总表的确定4.最近1日汇总表的设计5.最近1日汇总表数据装载6.最近n日汇总表的设计7.最近n日汇总表的数据装载7.1 初始思路7.2 优化思路7.3 数据装载的错误7.4 错误解决思路7.5 进一步优化7.6 各个表之间的关系前言下面真正进行DWS层的分析和设计一、DWS层设计分析1.设计要点1.1 设计依据DWS层的表要依赖于前面原创 2022-03-01 11:15:01 · 502 阅读 · 0 评论 -
5.离线数仓—DWS层设计开发
DWS层设计开发前言一、DWS回顾1、DWS层了解2、DWS层存在的必要性3、DWS层设计思路4、DWS层特点5、原子指标和派生指标6、DWS层设计原则7、DWS层设计步骤前言前面完成了ODS、DIM、DWD层的设计和实现,下面进行DWS层的设计开发。一、DWS回顾1、DWS层了解数据仓库汇总层数据(Data Warehouse Summary),基于指标需求,构建初步汇总事实表,一般是宽表。基于上层的应用和产品的指标需求,构建公共粒度的汇总指标表。以宽表化手段物理化模型,构建命名规范、口径一致原创 2022-02-28 15:30:49 · 932 阅读 · 0 评论 -
4.5 离线数仓—DWD层周期快照事实表实现
DWD层周期型快照事实表的设计前言一、周期型快照事实表回顾1.周期型快照事实表概述二、交易域购物车周期快照事实表1.建表原因2.建表语句3.数据装载语句前言前面完成了所有事务型事实表的设计,下面进行DWD层唯一一张周期型快照事实表的设计。一、周期型快照事实表回顾1.周期型快照事实表概述 周期快照事实表以具有规律性的、可预见的时间间隔来记录事实(记录的不是明细数据),主要用于分析一些存量型(例如商品库存,账户余额)或者原创 2022-02-26 17:26:42 · 640 阅读 · 0 评论 -
4.6 离线数仓—DWD层数据装载脚本
DWD层数据装载脚本前言一、首日装载脚本二、每日装载脚本前言前面已经把DWD层所有表以及它们的装载脚本都完成了,这里编写一个统一的数据装载脚本,方便每日执行。一、首日装载脚本脚本名称:ods_to_dwd_init.sh#!/bin/bashAPP=gmallif [ -n "$2" ] ;then do_date=$2else echo "请传入日期参数" exitfidwd_interaction_comment_inc="insert overwrite原创 2022-02-26 16:19:15 · 208 阅读 · 0 评论 -
4.4 离线数仓—DWD层用户域事实表实现
数仓DWD层设计开发前言一、用户域用户注册事务事实表1.建表语句2.首日数据装载3.每日数据装载二、使用步骤1.引入库2.读入数据总结前言前面完成了流量域5张事务事实表的设计,下面继续进行DWD层用户域事务事实表的设计一、用户域用户注册事务事实表1.建表语句DROP TABLE IF EXISTS dwd_user_register_inc;CREATE EXTERNAL TABLE dwd_user_register_inc( `user_id` STRING COM原创 2022-02-26 15:57:56 · 545 阅读 · 0 评论 -
4.3 离线数仓—DWD层流量域事实表实现
数仓DWD层设计开发前言一、流量域页面浏览事务事实表1.建表语句2.首日数据装载二、流量域启动事务事实表1.建表语句2.数据装载三、流量域动作事务事实表1.建表语句2.数据装载四、流量域曝光事务事实表1.建表语句2.数据装载五、流量域错误事务事实表1.建表语句2.数据装载前言前面完成了互动域2张事务事实表的设计,下面继续进行DWD层流量域事务事实表的设计一、流量域页面浏览事务事实表1.建表语句DROP TABLE IF EXISTS dwd_traffic_page_view_inc;CREAT原创 2022-02-26 13:28:51 · 529 阅读 · 0 评论 -
4.2 离线数仓—DWD层互动域事实表实现
数仓DWD层设计开发前言一、互动域收藏商品事务事实表1.建表语句2.首日装载语句3.每日装载语句二、互动域评价事务事实表1.建表语句2.首日装载3.每日装载语句前言前面完成了工具域3张事务事实表的设计,下面继续进行DWD层互动域事务事实表的设计一、互动域收藏商品事务事实表1.建表语句DROP TABLE IF EXISTS dwd_interaction_favor_add_inc;CREATE EXTERNAL TABLE dwd_interaction_favor_add_inc(原创 2022-02-25 13:24:58 · 290 阅读 · 0 评论 -
4.1 离线数仓—DWD层工具域事实表实现
数仓DWD层设计开发前言一、工具域优惠券领取事务事实表1.建表语句2.首日装载语句3. 每日装载语句二、工具域优惠券使用(下单)事务事实表1.建表语句2.首日装载语句3.每日装载语句三、工具域优惠券使用(支付)事务事实表1.建表语句2.首日装载语句3.每日装载语句前言前面完成了交易域6张事务事实表的设计,下面继续进行DWD层工具域事务事实表的设计一、工具域优惠券领取事务事实表1.建表语句DROP TABLE IF EXISTS dwd_tool_coupon_get_inc;CREATE EXT原创 2022-02-25 10:27:48 · 414 阅读 · 0 评论 -
4.离线数仓—DWD层设计开发
数仓DWD层设计开发前言一、DWD层设计分析1.设计要点1.1 设计依据1.2 存储格式1.3 存储格式二、DWD层实现1.交易域加购事务事实表1.1 分区规划分析1.2 建表语句1.4 数据流向分析1.5 首日数据装载1.6 每日数据装载2.交易域下单事务事实表2.1 分区规划分析2.2 建表语句2.3 首日装载2.4 每日装载前言前面完成了DIM层维度表的设计和开发,下面进行额DWD层事实表的设计和开发。一、DWD层设计分析1.设计要点1.1 设计依据DWD层的设计依据是维度建模理论,该层存原创 2022-02-24 16:18:33 · 1055 阅读 · 0 评论 -
3.1 离线数仓—DIM层实现
DIM层设计开发前言一、拉链表回顾二、用户维度表1.建表语句2.分区规划3.数据装载流程分析4.数据流向分析5.首日数据装载分析与实现5.1 首日数据装载分析5.2 首日数据装载实现6.每日数据装载分析与实现6.1 每日数据装载分析6.2 每日数据装载实现方式一6.3 每日数据装载实现方式二7.数据装载脚本7.1 首日装载脚本7.2 每日装载脚本前言DIM层维度表总共有6张,前面完成了5张表,全都是全量快照维度表,最后一张用户维度表是拉链表,需要好好分析一下。一、拉链表回顾二、用户维度表1原创 2022-02-23 20:01:17 · 360 阅读 · 0 评论 -
3.离线数仓—DIM层设计开发
DIM层设计开发前言一、DIM层设计分析1.设计要点1.1 设计依据1.2 压缩类型1.3 命名规范2.业务总线矩阵二、DIM层设计实现1.商品维度表1.1主维度和其他维度1.2 确定维度表字段1.3 建表语句1.4 数据装载前言前面完成了ODS层的设计开发,下面进行DIM层的设计和开发。一、DIM层设计分析1.设计要点1.1 设计依据DIM层的设计依据是维度建模理论,该层存储维度模型的维度表。1.2 压缩类型DIM层的数据存储格式为orc列式存储,优点是方便取数据。例如要取某个表的某几列,原创 2022-02-23 11:15:48 · 806 阅读 · 0 评论 -
2.离线数仓—ODS层设计开发
文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport原创 2022-02-22 15:08:58 · 338 阅读 · 0 评论 -
1.2 离线数仓—数据仓库环境准备
数据仓库环境准备前言一、数据仓库运行环境1.Hive环境搭建1.1 Hive引擎简介1.2 Hive on Spark配置1.3 Yarn环境配置二、数据仓库开发环境1. DataGrip安装使用1.1 DataGrip使用1.2 DataGrip测试使用三、数据仓库模拟数据准备1 用户行为日志准备2 业务数据准备前言前面完成了数仓的设计,现在进行数据仓库的环境准备,包括运行环境、开发环境和模拟数据的准备。一、数据仓库运行环境 &原创 2022-02-21 16:21:04 · 370 阅读 · 0 评论 -
1.1 离线数仓-指标体系分析
数据仓库指标体系分析前言一、最近1/7/30日各渠道访客数二、最近1/7/30日各渠道会话平均停留时长三、最近1/7/30日各渠道总会话数四、最近1/7/30日各渠道跳出率五、最近1/7/30日页面浏览路径分析(各跳转次数)六、流失用户数七、流失用户数八、用户新增留存率九、最近1/7/30日新注册用户数十、最近1/7/30日活跃用户数前言前面对数据仓库的设计过程进行了了解,这里对数仓的指标体系进行分析。一、最近1/7/30日各渠道访客数原子指标=业务过程+度量值+聚合逻辑派生指标=原子指标+统计原创 2022-02-20 19:53:07 · 760 阅读 · 0 评论 -
1.离线数仓—数据仓库设计
数据仓库设计前言一、数据仓库设计1.数据仓库分层规划2.数据仓库构建流程2.1 数据调研2.2 明确数据域2.3 构建业务总线矩阵2.4 明确统计指标前言前面对数据仓库做了简要介绍,并了解了数仓建模的相关知识,下面对数据仓库进行设计。一、数据仓库设计1.数据仓库分层规划 就像做java web系统一样要使用MVC架构分为三层,也好比计算机网络五层协议一样,这里数据仓库也需要进行分层,不同的层负责的部分不同,里面的数据原创 2022-02-20 17:27:16 · 471 阅读 · 0 评论 -
三、离线数仓—数据仓库
数据仓库概述及建模前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimp原创 2022-02-19 19:31:21 · 514 阅读 · 0 评论 -
2.4 离线数仓—数据采集模块总结
数据采集模块总结前言一、数据采集模块整体架构图二、日志数据采集1.日志数据采集流程图三、业务数据采集1.业务数据采集流程图1)全量表同步说明2)增量表同步说明前言数据采集模块已经全部完整,这里对数据采集模块做一个总结。一、数据采集模块整体架构图数据采集模块整体架构图如下:数据采集模块又可以划分为两部分,第一部分是前端埋点用户日志行为数据的采集;第二部分时业务数据的采集。二、日志数据采集1.日志数据采集流程图三、业务数据采集1.业务数据采集流程图1)全量表同步说明特别需要主要的是原创 2022-02-17 22:23:28 · 1164 阅读 · 0 评论 -
2.1离线数仓—业务数据数据同步规划
业务数据同步概述前言一、业务数据同步概述1.数据同步策略概述2.数据同步策略1)全量同步2)增量同步3.数据同步策略选择4.各表同步策略规划5.数据同步工具概述前言要进行业务数据采集,就要确定采用什么样的同步方式,因为业务数据中有些变化的快,有些变化的慢,有些表数据量大,有些表数据量小,针对不同类型的表,要采用不同的数据同步策略。一、业务数据同步概述1.数据同步策略概述业务数据在离线数仓项目中是一个非常重要的数据来源,我们需要每天定时从业务数据库中抽取数据,然后将数据传输到数据仓库中,才能对这些数原创 2022-02-17 16:37:38 · 747 阅读 · 0 评论 -
2.3离线数仓—增量表同步实现
业务数据采集模块—增量表数据同步实现前言一、增量表数据同步1.增量表数据通道二、MySQL—Maxwell—Kafka的实现1.Maxwell配置2.Maxwell—Kafka通道测试三、Kafka—Flume—HDFS实现1.Flume配置选取2.Flume配置关键点3.Flume配置具体实现4.通道测试5.说明四、优化总结1.增量表同步Flume启停脚本2.增量表首日同步3.增量表同步总结前言在确定了全量表使用DataX进行同步,增量表使用Maxwell进行同步,且学习了Maxwell相关使用方法之原创 2022-02-17 15:55:28 · 892 阅读 · 0 评论 -
电商数仓学习-Maxwell的使用
增量表同步工具Maxwell前言一、Maxwell简介1.Maxwell概述2.Maxwell输出数据的格式二、Maxwell1.MySQL二进制日志2.MySQL主从复制3.Maxwell原理三、Maxwell部署1.安装Maxwell2.配置MySQL1)启用MySQL Binlog2)创建Maxwell所需数据库和用户3)配置Maxwell四.Maxwell使用1.启动Kafka集群2.Maxwell启动停止3.Maxwell历史数据全量同步1)Maxwell-bootstrap2)bootstrap原创 2022-02-16 20:17:23 · 1805 阅读 · 0 评论 -
电商数仓学习-DataX的使用
全量表同步工具DataX前言一、DataX简介1.DataX概述2.DataX支持的数据源二、DataX架构原理1.DataX设计理念2.DataX框架设计3.DataX运行流程4.DataX调度决策思路5.DataX和Sqoop对比三、DataX部署1.下载安装四、DataX使用1.DataX任务提交命令2.DataX配置文件格式五、DataX案例1.同步MySQL数据到HDFS案例1)使用TableMode方式实现2)TableMode方式的参数说明3)使用QuerySQLMode方式实现4)使用Que原创 2022-02-16 15:05:45 · 1063 阅读 · 0 评论 -
2.2 离线数仓—全量表同步实现
业务数据采集模块—数据同步策略前言一、业务数据同步概述1.数据同步策略概述2.全量同步和增量同步3.全量同步和增量同步对比和选择二、各表同步策略的选择三、数据同步工具概述1.同步工具分类2.两种同步工具对比前言 在了解了所有业务数据的表后,就要解决这些表的同步方式,有些表可能每天都会变,有些表却很少变化,针对不同的表,要采取不同的同步方式,这里具体介绍业务数据表的同步方式一、业务数据同步概述1.数据同步策略概述&nb原创 2022-02-15 16:18:24 · 509 阅读 · 0 评论 -
2.离线数仓-业务数据采集
业务数据采集前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimpor原创 2022-02-15 14:59:00 · 175 阅读 · 0 评论 -
1.离线数仓—行为日志采集
数据采集模块前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport原创 2022-02-14 21:39:37 · 496 阅读 · 0 评论 -
二、离线数仓—数据采集模块
数据采集模块用户行为日志数据采集一、用户行为日志数据从哪里来?二、使用步骤1.引入库2.读入数据总结用户行为日志数据采集这里详细介绍了如何采集用户行为日志一、用户行为日志数据从哪里来?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sn原创 2022-02-14 20:54:09 · 432 阅读 · 0 评论 -
一、离线数仓—项目初步了解
在这里简单记录一下电商离线数仓的学习过程项目整体架构技术选型前期准备第一部分:数据生成数据记录类型用户行为日志格式模拟数据项目整体架构上图是整个离线数仓的架构,先简单了解,之后对每一部分逐个说明。技术选型本离线数仓采用的技术如下:数据采集传输:Flume、DataX、Maxwell、Kafka;数据存储:MySQL、HDFS;数据计算:Hive、Spark;数据可视化:Superset;任务调度:DolphinScheduler;前期准备三台服务器(虚拟机)安装Hadoop集群原创 2022-02-14 20:03:11 · 415 阅读 · 0 评论