数据仓库
阿武z
这个作者很懒,什么都没留下…
展开
-
数仓ETL代码优化 - 表字段 被过滤和聚合的次数
优化案例假设以下代码,在不同的调度任务中重复出现。那么是否可以抽出公共代码,减少资源使用。-- 是否可以将埋点里 搜索相关的 整合成一张表select *from app_event_trackingwhere op_type = '搜索'-- 是否可以将每日的用户下单情况 整合成公共层表select user_id, ...from order_itemwhere cre...原创 2020-03-12 17:41:10 · 316 阅读 · 1 评论 -
数仓ETL代码优化 - 找到经常在一起做JOIN的表
效果如图经常在一起做关联的表,可以更加的高内聚、低耦合,专表专用。建立中间层,让代码冗余变少,提高调度效率、减少资源使用。参考代码 Code...原创 2020-03-11 22:58:46 · 391 阅读 · 0 评论 -
ID-Mapping Hive Sql 初始化
背景例:A、B、C 设备属于同一个用户,C、D 属于同一个用户,D、E 属于同一个用户。则可以将 A、B、C、D、E 当作同一个用户。1、数据初始化create table test_id_mapping ( id_list array<String> comment "设备ID");insert overwrite table test_id_mapping...原创 2020-03-05 00:55:52 · 771 阅读 · 0 评论 -
数据资产管理-简单总结
数据资产 是什么通过对数据打上业务标签、计算成本收益、对应用层数据通过血缘技术,解决资产分析、治理、应用的痛点问题。数据资产 怎么做资产分析:通过对数据的业务属性 打上业务标签,生成资产地图,清晰方便了解哪些是核心数据,数据的使用场景和业务价值。资产治理:获取 数据存储和计算成本,对业务的收益价值。计算数据的ROI(成本收益比)。通过数据的被使用情况、业务价值、ROI, 对数据进...原创 2020-02-24 19:55:36 · 4127 阅读 · 0 评论 -
数据仓库-元数据简单总结
元数据 是什么数据的数据。对使用者提供解释说明,方便快速找到想要的数据。对开发者提供开发模型指导,提供优化方向,监控异常质量。元数据主要分为两大类:技术、业务一、技术元数据1、表的基本信息、存储信息2、计算资源3、调度信息4、数据质量5、血缘关系二、业务元数据1、维度建模(维表、业务过程、指标)2、应用层(报表、数据产品)元数据 怎么做1、收集HIV...原创 2020-02-23 16:11:09 · 857 阅读 · 0 评论 -
数据仓库是什么,如何建立(总结)
一、是什么官方解释:面向主题的、集成的、相对稳定、反应历史变化,用于企业的管理决策分析。开发者角度:通过接入各种数据源,打破数据壁垒,根据业务方的需求,设计方便使用和准确的数据模型,高效将结果输出给业务方。业务方角度:能快速准确提供数据,给公司的日常运营和领导决策提供数据支持和指导。二、如何建立1、分析业务需求、确认仓库主题2、确定总线矩阵3、设计分层架构4、规范约束5、维度...原创 2020-01-28 16:42:56 · 1498 阅读 · 2 评论 -
HIVE元数据使用场景落地(python版本)
一、背景参考数仓-HIVE元数据收集指标二、使用场景举例1、调度元数据通知-关键任务完成时间异常-关键任务没按时完成2、存储元数据占用HDFS空间TOP表HDFS文件数 新增TOP表3、计算元数据数据倾斜任务列表大任务TOP列表三、CODE DEMOHIVE元数据搜集代码:HIVE元数据搜集(python版本)HIVE元数据落地代码...原创 2020-01-28 12:11:55 · 389 阅读 · 0 评论 -
HIVE元数据收集(python版本)
已有工具1、ZEUS (调度平台)2、Dr-Elephant (任务的性能监控和调优的工具)3、Apache Griffin (数据质量工具)最终落地Hbase表结构row_key: action_id__hive_table(调度元数据)列族: scheduler列: 调度名、开始时间、结束时间、action_id、所属用户(计算资源元数据)列族: computing...原创 2020-01-26 00:30:13 · 876 阅读 · 1 评论 -
元数据-血缘分析-应用场景总结
1、异常定位假设有指标异常,想知道是什么造成的。通过 血缘分析配合数据质量,了解底层数据的波动情况,方便定位原因。2、提升调度性能通过收集 调度任务的开始结束时间,了解 关键任务 ETL链路的时间瓶颈,再根据JOB任务的执行情况,定位到性能瓶颈通过调整 任务的优先级,保证任务的资源提供, 提升整条ETL链路的执行效率。3、调度SQL优化通过检查字段的使用频率,指标是否有重复计算、资...原创 2019-12-12 13:58:13 · 3640 阅读 · 1 评论 -
数仓-HIVE元数据收集指标
通过对HIVE表进行打标签,构建基础元数据表1、存储2、应用场景3、数据质量4、重要等级5、调度任务6、计算资源7、被使用情况1、存储HIVE表是否分区、量级(可定阈值 设定等级)优化集群存储资源时、快速找到大表。方便监控表的量级变化情况2、应用场景从应用层入手(画像、广告、财务等),通过血缘链路,给涉及到的HIVE表,打上应用场景的标签清楚知道 表是能应用在什么场景...原创 2019-12-02 11:54:24 · 881 阅读 · 0 评论 -
数据仓库解决问题和分层设计好处
数据仓库解决什么问题1、将各种数据源整合到一起统一数据中心,解决数据壁垒。 <仓库的集成性特点>2、脏数据清洗,简化业务复杂结构数据。3、规范表、字段名称,统一字段数据格式,完善注释内容。4、保留历史变更数据,提供对细节变化分析支持。5、生产适合OLAP的大宽表,方便用户多维度快速分析。 <仓库的主题性特点>6、数据质量的保证和指标口径的一致性分层设计的优...原创 2019-10-24 23:45:13 · 1705 阅读 · 0 评论 -
阿武的博客文档索引
1、Hadoop组件安装搭建CDH 阿里云 (Step 1: 启动hdfs)搭建CDH 阿里云 (Step 2: 启动yarn)搭建CDH 阿里云 (Step 3: 搭建Hive)Hive On Spark搭建(cdh)2、元数据HIVE 字段级血缘分析 写入Neo4j3、JOB计算管理Dr Elephant(HIVE JOB监控调优)安装使用获取YARN上执行时间最长的JOB列...原创 2019-10-24 21:48:13 · 412 阅读 · 3 评论 -
一致性事实表 设计思路
原创 2019-07-22 20:10:31 · 786 阅读 · 0 评论 -
一致性维度表 设计思路
1、设计目标尽可能生成丰富维度属性尽可能多给出有意义文字性描述 (xxx_id + xxx_name)沉淀出通用的维度属性 (需要复杂运算得到,比如商品的三级分类名称,需要JOIN品类表得到 category3 name)2、维度设计步骤确定主维度表 (例如商品主表)确定相关维表(商品相关的类目、卖家、店铺相关维表)确定维度属性的整合和拆分 (详细如下)3、维度属性的整合...原创 2019-07-22 20:08:18 · 2444 阅读 · 0 评论