数据仓库的概念以及建模方法

文章目录

  •  

    什么是数据仓库?

    • 功能

      • 为了满足OLAP场景下的数据管理需求

        • 存储:管理,讲公司中所有数据进行统一化的存储管理

        • 处理:讲各种原始数据进行规范化处理,提供给各个需求

      • 本质:是一种分布式,统一化,规范化的数据管理设计模型

    • 应用

      • 满足企业中所有数据统一化的储存,通过规范化的数据处理来实现企业的数据分析应用

    • 特点

      • 面向主题

        • 数仓(数据仓库):公司中所有的数据全部通过数据采集或者数据同步进入数据仓库中

          • 数据集市主题域:一般是按照部门进行划分

            • 数据主题:各个应用对应的主题

               

    • 数据集成

      • 存储整个公司所有数据
      • 数仓不产生数据,也不使用数据
      • 仅实现存储和加工
    • 稳定性

      • 没有数据更新和删除业务。
      • 所有的事实都不允许被删除
    • 时变性

      • 会不断的将新的数据同步到数据仓库中

         

    • 数据仓库与数据库的区别是什么?

      • 数据库和数据仓库都是一种数据管理模式

      • MySQL和Hive实现数据管理模式的工具

  •  

    • 核心流程有哪些?

      • ETL:过滤、补全、转换

      • 分层:决定数据的规范性

      • 建模:决定了数据存储的方式,表的设计

    • 重点应用:通过维度来描述指标

      • 什么是维度?

        • 维度是用于描述事实的角度
        • 不急于组合维度进行分析得到,这个指标是有没有意义的。
      • 什么是指标?

        • 对数据分析的结果,是一个度量值,也成为了指数
        • 功能:通过指标来衡量事实的结果,反应事实好坏。
        • 常用指标 PV;UV,IP,跳出率,二跳率,平均访问时长,平均访问次数
  • 建模

    • 为什么要建模?

      • 性能:良好的模型能帮我们快速查询需要的数据,减少数据的IO吞吐

      • 成本:减少数据冗余、计算结果复用、从而降低存储和计算成本

      • 效率:改善用户使用数据的体验,提高使用数据的效率

      • 改善统计口径的不一致性,减少数据计算错误的可能性

    • 怎么建模?

    •  
  • 分层

​​​​​​​

相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页