数据仓库
文章平均质量分 59
小萨_Joshua
月入1800搞数仓的老程序员
记录自己的学习笔记
展开
-
数据治理与元数据管理
数据治理又称数据管控,偏向于管理强调 组织 制度 流程 技术组织:相关部门,角色职责制度:具体管理办法,操作手册流程:数据如何落地,如何执行技术:技术支撑,元数据采集,数据质量,任务建设不能看到问题在去管理,先从架构入手数据的价值:1.服务–决策/操作(驾驶舱,资产情况) 2.营销–获利 3.风控–风险(人行 征信 银保 反洗钱 反欺诈)举例 1.潜在客户:申请 沉睡唤醒 销户 担保人 员工(行内-在职/离职)2.号码管理:员工号/组织机构 HR员工号:属于一个或多个组织机构 OA系统原创 2022-03-10 16:54:39 · 2135 阅读 · 0 评论 -
Join的四种方式(Oracle)
1.查询优化器 执行join 语句[1]判断join两张表还是多张表 多张表会把有唯一约束或主键的表放在前处理[2]有outer join条件的语句放后面,子查询已经转化为一张表时在outer join后面[3]优化器根据 join的顺序,方法,访问路径 会产生很多执行计划,优化器评估每个计划的成本,选择最低的一个,作为最终执行计划成本评估方法[1]nested loop join 成本 基于读取外表的每一行 并 和在内存里的内表一一匹配的成本,优化器通过统计信息来评估该成本。[2]hash j转载 2022-01-13 21:18:10 · 1928 阅读 · 0 评论 -
Hints(Oracle)
Hints(Oracle)Hins约束优化器行为的一种方式(可以干预优化器,让优化器用我们指定的方式执行)一般 DBA 做性能分析使用,开发避免使用可以影响 优化器模式,数据访问,表关联,表连接顺序,并行,sql转换重写【优化器模式】1.all_rows 最快方式把整个数据处理完 (场景:报表,聚合查询数据 可以看情况嵌入)对语句块选择基于开销的优化方法,并获得[最佳吞吐量,使资源消耗最小化]2.first_rows 指定返回多少行 (场景:分页查询前多少行)对语句块选择基于原创 2022-01-13 21:08:16 · 997 阅读 · 0 评论 -
数据库优化器/收集统计信息
数据库优化器 分为基于规则 基于代价举例 去火车站买票基于代价 使用地图来算基于规则 按照习惯去走所以对于OLAP 多用于不同的查询sal多样,多使用基于代价对于OLTP 在某个系统是固定的,多使用基于规则基于代价优化器,就会使用到统计信息统计信息放在数据字典里(oracle 有自己的数据字典 类似user_tables user_column user_index impala 数据字典一般存在mysql )对于某一列 所有的值(即集合) 会分成200-250个隔断,如存在一张250原创 2022-01-10 08:58:47 · 341 阅读 · 0 评论 -
数据仓库基础-01
数据仓库基础发展历程1.非开放式系统 MainFream (早期) 开放式Linux unix2.数据仓库出现的原因本质上是来解决读写冲突,比如在上世纪70年代出现了读库,后来又衍生出了数据仓库内容3.银行系统是不允许删除数据的,如果有问题,会使用冲账的方式4.数据仓库建设的两位大师(1)BillInmon思想:范式化建模概念:面向主题的 集成的 非易失的 随时间变化的数据集合(2)Ralph Kimball思想:维度建模主导:通过一系列维数相同的数据集市递增地构建数据仓库(自下而上原创 2022-01-04 23:10:44 · 1086 阅读 · 0 评论