![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
文章平均质量分 77
小基基o_O
GitHub:https://github.com/AryeYellow
码云:https://gitee.com/arye
展开
-
大数据(0b)离线数据仓库
离线数仓数据库Database按照数据结构来组织、存储和管理数据的仓库数据仓库Data Warehouse是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合范式:构造关系数据库遵循的规则范式理论关系建模维度建模维度表事实表数仓分层ODS Operation Data StoreDWD Data Warehouse DetailDWS Data Warehouse ServiceDWT DataData Warehouse TopicADS原创 2020-12-25 23:34:29 · 2341 阅读 · 0 评论 -
使用Sqoop把ADS层数据导出到MySQL
sqoopadsexporthivepython正则表达式原创 2022-06-18 17:08:29 · 532 阅读 · 0 评论 -
MySQL数据同步到HIVE,自动生成MySQL表对应HIVE的建表语句
文章目录背景MySQL列数据类型转成HIVE的自动生成MySQL表对应HIVE建表语句完整代码附录背景MySQL数据同步到HIVE时,要写HIVE的建表语句数据类型全写STRING不够好,对此写个自动转换程序开发语言:Python3MySQL列数据类型转成HIVE的from re import fullmatchdef column_type_mysql2hive(mysql_column_type): """MySQL列数据类型转成HIVE的""" # tinyint原创 2022-04-20 12:21:47 · 3298 阅读 · 3 评论 -
运行Sqoop任务的通用脚本Python实现(待优化)
文章目录mysql_to_hdfs.pyads_to_mysql.py待优化开发、测试、生产 环境 自动切换待添加的参数待添加的模式本想用Bash?结果被Shell的正则表达式恶心到了!还是Python好mysql_to_hdfs.py思想:把【配置、sqoop、mysql】三者分离用法:把一大堆SQL写进_queries,SQL之间用双换行分隔,日期用{ymd}注意:SQL的日期要用双引号,SQL注释要顶格数据同步#!/usr/bin/python2原创 2021-11-09 11:20:10 · 2154 阅读 · 0 评论 -
大数据(3j)Sqoop生产经验
增量同步遇到的坑并行度列式存储导出问题Sqoop数据导出一致性问题上游业务系统数据库按月分表上游表字段变更管理数据同步增量同步增量变化同步原创 2021-11-09 15:45:07 · 2174 阅读 · 0 评论 -
大数据(3i)Sqoop安装和操作
Sqoop是什么开源的数据传输工具主用在Hadoop(HDFS)与传统的数据库(MySQL、Oracle…)之间sqoop下载sqoop安装sqoop基本操作sqoop数据传输etlmysql导入到hdfsmysql导入到hivehdfs导出到mysqlhive导出到mysql增量同步、增量更新python2脚本部署sqoopSqoop直接把MySQL数据导入HIVE表分区原创 2020-12-28 12:34:10 · 616 阅读 · 0 评论 -
数据迟到超过1天
如果高延时情况下仍丢迟到很多数据,就应优化源头数据采集程序。任务可得到99.9%的数据,剩下的迟到数据可忽略不计。流数据中有2个时间,1个是程序时间,1个是事件时间。Flume有个按时间滚动文件的参数,滚动中的文件以。数据上传到服务端的时间是15点23分01秒。通常会给Flume配置时间拦截器,使得。程序时间:数据被服务端接收的时间。事件时间=15点23分00秒。程序时间=15点23分01秒。默认会用Flume的程序时间。一般来说,数据延时不会太大。事件时间:事件发生的事件。任务,装载的数据数据不全。...原创 2022-08-03 22:58:59 · 406 阅读 · 0 评论 -
统计HIVE字段行数、NULL行数、字段重复行数
源MySQL数据导入HIVE数据仓库ODS层后,统计主键行数、主键NULL行数、主键重复行数统计HIVE表主键行数、主键NULL行数、主键重复行数的SQL原创 2022-04-19 21:14:51 · 3680 阅读 · 0 评论 -
执行HIVE通用脚本Python实现
离线计算T+1hive -ePYTHON2PYTHON3脚本shellbeeline原创 2021-10-24 13:52:33 · 745 阅读 · 0 评论 -
图解HIVE累积型快照事实表
2种情况列固定group by 后,列不固定原创 2021-10-26 22:25:29 · 2363 阅读 · 1 评论 -
离线数仓DIM层和DWD层,联表后表和字段命名规则
1个维度表动辄30个字段3个维度表接近100个字段a一对多b一对多c,则c是最细维度,则c左联b左联a联表后,命名以最细粒度c,全量维度表后缀full,拉链表后缀zip,则全名为dim_c_full字段命名维度层事实表维度表DIM层dwd层原创 2022-04-17 19:48:43 · 1477 阅读 · 0 评论 -
大数据(3f)HIVE拉链表
什么是拉链表HIVE实现拉链表建表插入数据到 每天新增和变化表更新拉链表首次导入第一次更新第二次更新原创 2021-01-12 08:16:02 · 1671 阅读 · 0 评论 -
大数据(0d)埋点日志分析
文章目录架构埋点数据设计数据采集离线分析实时分析架构埋点:用于网站分析的数据采集方法Nginx(engine x):高性能的HTTP和反向代理web服务器埋点数据设计离线计算pythonorcsnappygziphive原创 2021-08-28 10:02:33 · 683 阅读 · 0 评论 -
HIVE消费者画像
消费者画像,是以消费者ID(通常是用户ID)作唯一标识,统计消费者的各项指标通常业务系统数据库没有专门存储消费者的表,只有用户信息表用户注册后,并不一定会消费,消费的用户占比可能很小消费者画像的构建 需要借助 用户维度表 和 子订单明细表常见指标累计金额、近期金额(近1天、7天、30天金额)累计订单数、近期订单数累计商品数、近期商品数最近1次消费时间、最早1次消费时间最近1次消费地址消费地区(1~n个)曾购品牌(类目)曾购类目(列表)购买间隔。原创 2022-08-21 21:43:06 · 831 阅读 · 3 评论 -
大数据(电商行业)规模参考
集群规划设备数据量硬盘HDFSKafka日志服务器峰值分析按秒按小时按天内存组织架构原创 2021-08-18 17:42:57 · 637 阅读 · 0 评论