BI学习笔记

一、概述

  商业智能项目最重要的就是解决各个业务系统间数据整合的问题,消除信息孤岛,为企业管理人员提供统一的数据查询和报表展示功能,能够进行多维度的数据分析和数据挖掘,对企业发展起到指导作用。

1.商业智能的实施方法:

  1)项目规划:前期准备、调研、分析等工作,逻辑模型的设计等。
  2)系统设计与实现:系统体系结构、数据库、ETL的设计,前端应用的开发,元数据管理等。
  3)系统调优:逻辑、模型的调整,性能的调优。
  4)系统运行维护:编写系统运维手册和用户使用手册,培训教材等文档。

2.商业智能的实施步骤:

  1)定义需求:需求分析是BI项目最重要的一步,需要描述项目背景与目的、业务范围、业务目标、业务需求和功能需求等内容
  2)数据仓库模型建设:系统设计开发之前,由业务人员设计人员共同参与概念模型的设计;在系统设计开发时,由业务人员设计人员共同参与逻辑模型的设计;最后设计人员根据逻辑模型进行物理模型的设计。设计人员通过和业务人员合作,来明确业务需求,深刻理解业务,确保模型符合业务需求。
  3)数据抽取、清洗、转换、加载(ETL):将数据从各个业务系统中抽取出来,经过数据清洗,检查数据质量,处理异常数据,并将数据转化为统一的格式,再进行数据转换,对数据进行聚合等计算和处理,最后加载到数据仓库的过程。
  4)建立BI分析报表:前端报表系统通过对数据仓库中数据的分析、挖掘,为企业的决策层提供数据支持,使他们可以从各个角度、不同粒度,以不同方式了解企业的运营情况及核心数据,为企业决策提供有力支持。

二、数据仓库的理论知识

1.数据仓库的定义:

  数据仓库是一个面向主题的、集成的、稳定的、反映历史变化的、随着时间发生变化的数据集合。主要用来支持企业管理人员的决策分析。
  其中
  1.1.面向主题
  普通的操作型数据库主要是面向事务,而数据仓库中的数据一般按照主题进行划分,如“客户主题”、“产品主题”、“财务主题”等,客户主题包括:客户基本信息、客户信用信息、客户资产信息等内容。
  1.2.集成性
  一般包括两个方面的集成
  1.2.1.数据的集成
  例如在传统数据库中关于李雷的信息,如出生日期、工作地点、婚姻状况等在多张表上,而数据仓库中则是将其整合到一起。
  1.2.2.编码的集成
  例如在不同源数据表中,对性别的编码分别为:m/f、男/女、0/1,到数据仓库中则要将其统一,例如都以0/1表示。
  1.3.稳定性
  一旦数据进入到数据仓库,一般会被长期保留,不进行任何修改和删除操作。
  1.4.反应历史变化
  一般数据仓库中数据表都有时间键,以表明数据的历史时间信息。通常数据仓库中数据保存期限为5~10年

2.数据仓库和传统数据库的区别

2.1事务型处理数据和分析型处理数据的区别:
  事务型:对性能要求严格
      事务驱动的
      主要面向应用
      主要存储即时性、细节性的数据
      数据可更新

  分析型:对性能要求较高
      分析驱动的
      主要面向决策分析
      主要存储历史性、汇总性的数据
      数据不更新
2.2数据库生产系统和数据仓库决策系统的区别:
  数据库: 面向应用、事务
       实时性高
       数据检索量小
       只存储当前数据
       访问频率高
       响应时间短,基本是实时
       用户数量大
  
  数据仓库:面向主题、分析型
       实时性要求不高
       数据检索量大
       存储大量历史数据,包括当前数据
       访问频率不高
       响应时间要求不高,可为几秒或更长
       用户数量相对小

ODS系统

  ODS分为ODS数据缓冲区和ODS统一信息视图区。
  1.ODS数据缓冲区
  ODS数据缓冲区是源数据流过的第一个存储区,将各个业务系统的数据抽取出来,并加载到ODS数据缓冲区,实现了统一的、全局的企业数据平台,为数据抽取、转换、加载提供了基础条件。数据量大的可以采用增量抽取,对经常变化的数据可以采用全量抽取。ODS数据缓冲区具有实时性。
  2.ODS统一信息视图区
  ODS统一信息视图区是有选择地集成各类业务源数据,经过ETL操作,以数据主题域为基础,对数据进行分类和组织,使用户能通过统一信息视图区获得关于某一主题的实时性(近期的)数据。
  简而言之,ODS统一信息视图区可以理解为临时的数据仓库,可以向用户提供近期数据以供查询及报表展示,而ODS数据缓冲区则一般只进行简单的汇总、计算,供ODS统一信息视图区和数据仓库使用。

联机分析处理OLAP

概念:根据用户需求进行的联机数据分析,包括对数据仓库的分析,是业务分析人员、中层管理人员、企业领导者从多角度对企业数据进行深入理解的过程。

一、度量值与维
  以商品销售为例,衡量商品销售效果的数据可称为度量值,如销售额、成本、利润。但是我们关注这些值的时候还要关注什么呢?那就是维度,比如时间、商品类别、品牌等,拿销售额来说,关注销售额的时候,总要有一个明确的范围吧,是今年一月份的还是第一季度的,是鼠标的销售额还是键盘的还是所有外设类的,是哪一款鼠标的销售额,哪个品牌的,诸如此类,在关心度量值的时候,可以入手的角度,就叫做维度。
  那么接下来分别指出几个概念
  1.维度:用来对数据进行分类的结构和人们观察业务情况的角度,如上述的时间、商品类别。
  2.维度的层次:根据维度的细节程度不同,划分出的一类属性,是维度中预先定义的不同级别,如日期维度拥有年、季度、月、日的层次。
  3.类别:是维度的层次上各项的取值,比如月份层次的类别有一月、二月等。

(未完)
  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值