《DAMA数据管理知识体系指南》读书笔记-第十一章(数据仓库与商务智能)

一、前言

本文是《DAMA数据管理知识体系指南》第十一章的读书笔记,主要讲述数据仓库和商务智能的知识,不仅是全文最重点的内容之一,也是整个数据工作中的重中之重(按照CDMP考试认证的占比高达11%)。关于数据仓库的文章,之前也总结过相关内容,本文在总结时就不再过多扩展,尽量参考文中内容。全文作为六大重要章节之一,内容会稍微多一点,全文约8000字,如果时间充足建议大家在PC端进行阅读。

二、内容结构

本章节首先从数据仓库和商务智能的基本概念讲起,从业务驱动因素到目标以及原则上对数据仓库的建设的必要性进行阐述;并对数据仓库建设的方法、所涉及的模块以及相关名词进行讲解,让我们对整个数据仓库的架构和模块有较为清楚的认识;并从数据仓库的建设过程入手,对整个建设活动进行步骤拆解、所需工具分析、技术要求拆解;最后对数据仓库的后续优化、维护、评价进行讲解。其整体内容结构图如下所示:
在这里插入图片描述

三、主要内容

在这里插入图片描述

1.引言

数据仓库的概念始于20世纪80年代。该技术赋能组织将不同来源的数据整合到公共数据模型中去,整合后的数据为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能性。数据仓库提供了一种减少数据冗余、提升数据一致性,让企业能够利用数据做出更优决策。

随着技术的不断发展,数据仓库支撑的应用愈加广泛,不仅支撑组织的运用分析,更是对在线应用有着重大的影响。在面对爆炸的数据场景,更是直接改变了数据与用户的交互方式,信息推荐在大数据时代可以说是商业模式的一大颠覆。

在这里插入图片描述
1.1业务驱动因素

数据仓库主要的驱动力是运营支持职能、合规需求和商务智能活动。越来越多的组织被要求用数据来证明他们是合规的,因为数据仓库中包含历史数据,所以经常被拿来响应这类需求;商务智能支持一直是建设数据仓库的主要原因,商务智能为组织、客户及产品提供洞察。通过商务智能获得决策知识并采取行动的组织,能提升其运营效率,增强其竞争优势(随着数据的剧增、数据技术的发展,商务智能从回顾评价逐渐发展到预测分析)。

1.2目标和原则

一个组织建设数据仓库的主要目标通常有:

支持商务智能活动。

赋能商业分析和高效决策。

基于数据洞察寻找创新方法。

数据仓库建设应遵循如下指导原则:

聚焦业务目标。确保数据仓库用于组织最高优先级的业务并解决业务问题。

以终为始。让业务优先级和最终交付的数据范围驱动数据仓库内容的创建。

全局性的思考和设计,局部性的行动和建设。让最终的愿景指导体系架构,通过集中项目快递迭代构建增量交付,从而实现更直接的投资回报。

总结并持续优化,而不是一开始就这样。以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不替换细节数据。

提升透明度和自助服务。上下文信息越丰富,数据消费者就越能从数据中获取更多数据价值。向利益相关方公开集成的数据及其流程信息。

与数据仓库一起建立元数据。数据仓库成功的关键是能准确解释数据。

协同。与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。

不要千篇一律。为每种数据消费者提供正确的工具和产品。

1.3基本概念

商务智能 :商务智能这个概念有两层含义,一是理解组织的诉求和寻找机会的数据分析活动,通过数据分析的结果用来提高组织决策的成功率;一是支持这类数据分析活动的技术集合,包括决策工具、、商务智能工具、数据可视化技术等。
数据仓库:数据仓库有两个重要组成部分,一个是集成的决策支持数据库;另一个是与之相关的的软件程序,包括用于收集、清理、转换和存储来自各种操作和外部源数据的系统。为了支持商务智能需求,除了企业级数据仓库(EDW)还会建设与之依赖的数据集市,用以满足特定领域的数据需求。
数据仓库建设:数据仓库建设是指数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。数据仓库建设流程的重点,是通过一定程度的强制规范业务规则、维护适当的业务数据关系,在运营上实现一个集成的、历史的业务环境。
数据仓库建设方法:大部分关于数据仓库构建的讨论,都受到两位有影响力的思想领袖Bill Inmon 和Ralph Kimball的影响,他们在数据仓库建模和实施上各有不同的方法和思想。Inmon把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”;Kimball把数据仓库定义为“为查询和分析制定的交易数据副本”,其建模方法就是我们常见的多维模型。虽然他们提出建设数据仓库的方法不同,但是核心理念却是相似的:
数据仓库存储的数据是来自其他系统的集合
存储行为包括以提升数据价值的方式整合数据
数据仓库便于数据被访问和分析使用
组织建设数据仓库,因为需要让授权的利益相关方访问到可靠的、集成的数据
数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析
企业信息工厂(Inmon):企业信息工厂(Corporation Information Factory,CIF)是主要的两种数据仓库建模方式之一,CIF的主要组成部分包括应用程序、数据暂存区、继承和转换、操作数据存储、数据集市、操作型数据集市、数据仓库、运营报告。企业信息工厂的特点包括
目标从业务功能的执行专项数据分析。
系统最终用户从一线业务人员变成企业决策者
系统使用从固定操作转向即席查询
响应时间的要求不再重要
每个操作、查询或流程涉及更多的数据
==图
数据仓库和业务系统区别:
面向主题的。数据仓库是基于主要业务实体组织的,而不是关注功能或应用
整合的。数据仓库中的数据是统一的、内聚的。
随时间变化的。数据仓库存储的是某个时间段的数据
稳定的。在数据仓库中,数据记录不会像在业务系统里那样频繁更新
聚合数据和明细数据。数据仓库中的数据包括原子的交易明细,也包括汇总后的数据
包含历史的。业务系统的重心是当前的数据。数据仓库还包括历史数据,通常要消耗很大的存储空间。
数据仓库和数据集市的数据与应用程序中的数据不同:
数据的组织形式是按主题域而不是按功能需要
数据是整合的数据,而不是“孤立”的烟囱数据
数据是随时间变化的系列数据,而非仅当前时间的值
数据在数据仓库中的延迟避灾应用程序中高
数据仓库中提供的历史数据比应用程序中提供的历史数据多。
在这里插入图片描述
多维数据仓库(Kimball):多维模型是数据仓库建设的另一个主要模式,旨在方便数据使用者理解和使用数据,同时还支持更优的查询性能。在多维模型中,数据分为事实表(有关业务流程的定量数据)和维度表(存储与事实数据相关的描述性属性,为数据消费者解答关于事实表的问题),根据维度表的组织形式又分为雪花模型和星型模型。多维模型中,数据仓库主要包含业务源系统、数据暂存区、数据展示区域和数据访问工具及其相应的所有组件。总的来说,在面对决策分析的场景中,Kimball数据仓库比Inmon的数据仓库的可扩展性更强。
在这里插入图片描述
数据仓库架构组件:数据仓库环境包括一系列组织起来满足企业需求的架构组件,下图是一个传统数据仓库的组织架构图。大数据的发展为数据流入企业增加了一个新的途径,因而改变着数据仓库/商务智能的格局。通常包括源系统、数据集成区域、数据存储区域、操作型数据存储、数据集市以及数据立方。
源系统:通常包括如客户关系管理系统、财务系统和人力资源系统等业务系统,以及与特定行业相关的一些业务系统。
数据集成:数据集成包括抽取、转换和记载、数据虚拟化以及将数据转换为通用格式和位置的其他技术。
数据存储区域:数据仓库包含多个不同用途的数据存储区域,分别是暂存区、参考数据和主数据一致性维度、中央数据仓库。
操作型数据存储:操作型数据存储是中央持久存储的一个解决方案,它能支持较低的延迟,因此可以支持业务应用。
数据集市:数据集市是一种数据存储,通常用于支持数据仓库环境的展示层,还用于呈现数据仓库的部门级或功能级子集,以便对历史信息进行集成报表、查询和分析。
数据立方(Cubes):存在三种经典的支持在线分析处理系统(OLAP)实现方法:基于关系数据库的、基于多维数据库的及混合性存储结构的,它们的名称与底层数据库类型有关。

在这里插入图片描述
数据加载处理方式:数据仓库建设涉及两种主要的数据集成处理类型,历史数据的加载&持续不断更新的数据。历史数据只需要加载一次或有限的几次,持续不断更新的数据加载需要有始终如一的规划和执行,以保证数据仓库中最新的数据。
历史数据:数据仓库的一个优势是它可以捕获所存储数据的详细历史记录。有多种不同的方法来捕获这些详细信息,想要获取历史数据信息,组织应该根据需求进行针对性的设计。
批量更新数据:数据仓库是通过每天晚上的批处理窗口进行一次数据加载服务。因为不同源系统可能乤不同的变更捕获技术,所以加载过程可包含各种变更监测。
在这里插入图片描述
准实时或实时数据加载:操作型商务智能的出现推动了更低延迟的需求,将更多实时的或准实时的数据集成到数据仓库中,新的架构方法随之出现,用于处理易变化的数据。包括涓流式数据加载、消息传送、流式传送。

2.活动

2.1需求理解
构建一个数据仓库与开发一套业务系统不同。业务系统的开发取决于精确的、具体的业务需求。数据仓库建设则是把数据汇集在一起,再以各种不同的方式使用这些数据(变动的、不确定的)。在初始设计阶段花些时间来思考数据功能和数据来源相关的问题,以便更好的支持组织的数据需求。

数据仓库/商务智能项目的需求时,首先,要考虑业务目标和业务战略,确定业务领域并框定范围;然后,确定并对相关的业务人员进行访谈,了解他们想要什么数据,为什么要这些数据,记录他们当下关心的具体问题和想要询问的数据,以及他们如何区分和分类重要信息。

2.2定义和维护数据仓库/商务智能架构

数据仓库/商务智能架构应描述数据从哪里来、到哪里去、什么时候去、为什么要去、以及用什么样的方式流入数据仓库。“用什么样的方式”包括相关软件和硬件细节,以及将所有活动组合在一起的组织框架。技术要求包括性能、可用性和时间性要求。

确定数据仓库/商务智能技术架构:最佳的数据仓库/商务智能架构提供一种能够以原子化的数据处理方式支撑交易级和运营级报表需求的机制,这种机制可以避免数据仓库存贮每一笔交易细节。

确定数据仓库/商务智能管理流程:通过协调和集成维护流程进行生产管理,定期向业务团队发布。为发布制定一个时间表,包括年度需求、资源计划以及标准交付计划。建立一个有效的发布流程,确保管理层理解这是一个以数据产品为中心的主动流程,而不是既有产品的被动式问题解决方式。

2.3开发数据仓库和数据集市

通常来说,数据仓库/商务智能建设项目有三条并存的构建轨迹:数据(支持数据分析所必需的数据)、技术(支持数据存储和拆迁的后端系统及流程)、商务智能工具(数据消费者从已部署的数据产品中获得有意义的数据洞察的必备应用套件)。
将源映射到目标: 源到目标的映射为从各个源系统到目标系统的实体和数据元素建立转换规则。所有映射工作最困难的部分就是确定多个系统中数据元素之间的链接有效性或等效性。需要一个可靠的分类法来讲不同的数据元素映射到数据仓库中,并且结构一致。

修正和转换数据:强化数据修正或清理活动的执行标准,并纠正和增强各个数据元素的阈值。为那些已经完成加载但又发现不正确的数据记录制定修正策略。数据转换重点关注技术系统中实现业务规则的活动,数据转换对数据集成至关重要。

2.4加载数据仓库

在所有的数据仓库工作中,工作量最大部分的工作都是数据准备和预处理。描述数据仓库中所包含的设计决策和原则是数据仓库/商务智能架构设计的关键考量因素。

确定数据加载方法时,要考虑的关键因素是数据仓库和数据集市所需的延迟要求、源可用性、批处理窗口或上载间隔、目标数据库及时间帧的一致性。确定加载方法时要考虑的另一个因素是围绕变更数据捕获的过程检测源系统中的数据变更,将这些变更集成在一起,并依时间调整变更。

2.5实施商务智能产品组合

根据需要给用户分组:在确定目标用户时,存在一系列的商务智能需求。首先,了解用户组;然后,将工具与公司中的用户组进行匹配。一端是与提取数据有关的IT开发人员,他们专注于高级功能;另一端是信息消费者,他们可能希望快速访问先前开发和运行的报表。

将工具与用户要求相匹配: 许多厂商正在通过并购或全新开发来整合相关的商务智能工具,并提供商务智能套件。

2.6维护数据产品

构建好的数据仓库及其面向客户的商务智能工具是一个数据产品。对现有数据仓库平台的增强应逐步实现。应包含以下主要步骤:
发布管理:发布管理对增量的开发过程至关重要,增加新功能,增强生产部署,并确保为已部署的资产提供定期维护。这个过程将使数据仓库保持是最新的、清洁的,并以最佳状态运行。

管理数据产品开发生命周期:数据仓库团队根据业务团队按优先级排序的延期交货工作清单对迭代与发布进行调整。每次迭代都将扩展现有增量,或加入业务团队提出的新功能。版本发布需要保持功能与业务团队的需求一致,而迭代将使功能与产品经理管理的额配置本身保持一致。

监控和调优加载过程:在需要的地方和时刻使用数据库调优技术,包括分区、备份调优和恢复策略调整。

监控和调优商务智能活动和性能:商务智能监控和调优的最佳实践是定义和显示一组面向客户满意度的指标,如平均查询响应时间,每天、每周或每月的用户数是有用的指标。定期审查使用情况的统计数据和使用方法非常重要。透明度和可见性是推动数据仓库/商务智能监控的关键原则。增加数据质量度量将提高此仪表板的价值,其中的性能不仅是速度和时间。使用热力图可视化基础架构上的工作负载、数据吞吐量以及对操作协议级别的合规性。

3.工具

工具集的选择可能是一个漫长的过程,既要满足近期需求、非功能性规范,还需要考虑尚未产生的后续需求(立足当下,展望未来)。提供决策标准工具集、流程实时工具和专业服务可以促进和加快过程,不仅要评估传统的架构和购买策略,还要评估SaaS厂商提供的选项。

3.1元数据存储库

元数据存储库的关键是能将来自各种来源的元数据“黏合”在一起,并使用各种技术实现存储库的自动化和集成填充。

数据字典和术语:数据字典用业务术语来描述数据,包括使用该数据所需的其他信息。数据字典内容直接来自逻辑数据模型。在建模过程中,应要求建模人员采用严格的定义管理方法,以规划高质量的元数据。业务用户可通过提供、定义和校正主题域数据元素定义积极参与数据字典的开发。可通过协作工具进行这项工作,通过卓越中心监控活动确保创建的内容保留在逻辑模型中,确保面向业务的内容与面向技术的物理模型之间保持一致,降低下游错误和返工的风险。

数据和数据模型的血缘关系:许多数据集成工具提供血缘分析,既要考虑开发的总体代码,又要考虑物理数据模型和数据库。记录的血缘关系用途包括,调查数据问题的根本原因;对系统变更或数据问题进行影响分析;根据数据来源确定数据的可靠性。

3.2数据集成工具

数据集成工具用于加载数据仓库。除了完成数据集成工作外,还可将来自多个数据源的复杂数据交付以作业的方式进行调度。在选择工具时,还要考虑系统管理以下功能:

过程审计、控制、重启和调度
在执行时有选择地提取数据元素并将其传递下有系统进行审计的能力
控制哪些操作可执行或不能执行,并重新启动哪些失败或中止的进程。

3.3商务智能工具类型

商务智能工具正在快速发展,正在实现从IT主导的标准化报表向业务驱动的数据探索和自主服务过渡。

运营报表:是商务智能工具的应用,分析短期和长期的业务趋势。运营报表还可帮助发现趋势和模式,使用战术商务智能工具支持短期业务决策。

业务绩效管理:包括对组织目标一致性的指标的正式评估,此评估通常发生在高管层面。使用战略商务智能工具支持企业的长期目标

描述性的自助分析:为前台业务提供的商务智能工具,其分析功能可指导运营决策。

4.方法

4.1驱动需求的原型

对数据进行剖析有助于原型设计,并降低与非预期数据相关的风险。对源数据的状态评估,有助于对集成可行性和工作范围进行更准确的前期估算。

4.2自助式商务智能

自主服务是商务智能产品的基本交付方式。它通常会将用户活动放在受管门户中,根据用户的权限提供各种功能,包括消息传递、警报、查看预定的上次报表、与分析报表交互、开发即席查询报表,还有仪表盘和计分卡功能。

4.3可查询的审计数据

为了维系数据血缘关系,所有的结构和流程都应能创建和存储审计信息,并能够进行细粒度的跟踪和报告。

5.实施指南

对一个好的数据仓库项目来说,设计能扩展满足未来需求的稳定架构是很重要的。配置能够处理日常数据加载、分析和解决最终用户反馈的生产支持团队是必须的。

5.1就绪评估/风险评估

一个组织准备接受一项新风险,与它有能力承担这个风险之间可能会有一低昂的差距。成功的项目从先决条件清单开始。所有的IT项目都应该有业务支持,与战略保持一致,并有一个定义好的架构和方法。数据仓库应能实现以下几点:
明确数据敏感性和安全性约束
选择工具
保障资源安全
创建抽取过程以评估和接收源数据

5.2版本线路图

建议将数据仓库总线矩阵作为一个沟通和推广的工具在逐步迭代的过程中使用。使用由风险度量约束的业务确定的优先级,以确定应用于每个增量版本的严格性和开销。每个增量版本都将修改现有的功能或添加新的功能,这些功能通常与新加入的业务团队保持一致沟通。

5.3配置管理

配置管理与发布线路图保持一致,并提供必要的后台调整和脚本,以自动化开发、测试和发布到生产。

5.4组织与文化变革

始终保持一致的业务重点是项目成功的关键。了解企业的价值链是理解业务环境的好方法,企业价值链中的特定业务流程提供了一个自然地面向业务的环境,该环境可用于构建分析领域。建立单独团队来进行数据产品的交付有利于工作量优化,因为团队在固定周期内有重复的任务,通过维护通道能看到工作负载峰值与具体可交付物情况,可对工作进行进一步优化调整。

6.数据仓库/商务智能治理

数据仓库治理流程应与风险管理保持一致。将一次性有有限使用的事件视为生命周期一部分,并且可能在试验区域内或在用户控制的“沙箱”区域内限制它们。实时分析流程可通过自动化流程将时间一致的聚合结果反馈到数据仓库中。策略是针对实时环境中制定的过程定义的,而治理适用于将结果放入仓库供组织使用。

6.1业务接受度

一个关键的成功因素是业务对数据的接受程度,包括可以理解的数据、具有可验证的额质量,以及具有可证明的数据血缘关系。预先还要考虑一些重要的架构子组件及其支持活动,如下:

概念数据模型:组织的核心信息是什么?关键的业务概念是什么?它们是如何相互关联的?
数据质量反馈循环:如何识别和修正问题数据?系统所有者如何了解问题是怎么产生的?怎样对解决问题负责?对数据仓库的数据集成过程中引起的问题进行补救的过程是什么?
端到端元数据:架构如何支持集成的端到端元数据流?特别是,在架构设计时是否理解上下文环境的意义?数据消费者如何回答诸如“这个报表的含义是什么”或“这个指标是什么意思”等基本问题。
端到端可验证数据血缘:业务用户公开访问的项目是否能以自动化的、可自维护的方式追溯到源系统?所有数据是否都记录在案?

6.2客户/用户满意度

对数据质量的认识将提升客户满意度,通过定期与用户代表召开会议,可促进对问题的收集和理解,并根据客户反馈采取行动。

6.3服务水平协议

对具体数仓环境的业务和技术期望应在服务水平协议(SLA)中制定。

6.4报表策略

确保BI产品组合内 和跨BI产品组合都存在报表策略。报表策略包括标准、流程、指南、最佳实践和程序,它将确保用户获得清晰、准确和及时的信息。保证报表的安全访问、合适的访问机制、适当的展示工具和展示方式、以及数据查询的及时性和理解性。

6.5度量指标

使用指标: 数据仓库中使用的度量指标通常包括注册用户数、连接用户数或并发用户数。允许多个分析指标,如审核用户、以生成的用户查询量和使用用户

主题域覆盖率:主题域覆盖百分比衡量每个部门访问仓库的程度,还强调哪些数据是跨部门共享的,哪些还不是但也可能是共享的。将操作源映射到目标是另一种自然扩展,它强调和验证已经收集的血缘关系和元数据,并以提供渗透分析,确定哪些部门在使用源系统分析。通过减少对大量使用的源对象的更改,有助于将工作调整集中在那些具有高影响力的分析查询上。

响应时间和性能指标:大多数查询工具会测量影响时间。通过工具检索影响或性能指标。此数据指标代表用户的数量和类型。数据加载过程以原始格式收集每个数据产品的加载时间。大多数工具将在日志或存储库中为提供给用户的对象保留查询和刷新记录及提取时间等。

四、思考与总结

数据仓库基于数据系统,犹如心脏之于人;数据仓库是数据建设的核心,是数据集中处理的场所。数据仓库的概念已经是比较成熟,随着大数据hadoop体系的发展,数据仓库的实践在最近几年间更是如火如荼。随着数据技术的不断发展,数据仓库技术也在不断地迭代,数据湖、数据中台、数据底座等名词和概念不断涌现,但其实本质都是一样的——数据集中存储和处理场所,以支撑后续的数据应用(包括分析决策和在线应用)。

数据仓库相关的内容已经非常丰富,仓库建模、数据平台、数据集市等的具体应用实例资料都非常的丰富。其核心点主要包括:数据模型–如何进行数据结构组织;分层方法–数据处理流程如何组织;分主题建设–如何进行数据隔离与扩展;事实表&维度表恰当应用–数据如何存储查询;ETL–数据如何集成和应用。之前也整理过相应文章进行总结《数据仓库的几个基本概念及其理解》,此处就不再一一赘述,仅提几个需要重点关注的点。

面向业务应用,切勿闭门造车。没有完美的模型和架构,能快速准确支持业务应用的模型就是好模型,切勿为了完美而完美。

数据应用优先,规范管理并行。业务探索中的数据需求往往较多,但是数据规范性往往较差,需要把握其中的度,一旦趋于稳定规范管理必须跟上。

主次分明,保障数据准确度。数据需求响应度很重要,但是数据准确度更重要,数据准确度是数据仓库的生命线,如果产出的数据质量较差不仅返工严重,而且会容易失去公信力。
转载链接:https://mp.weixin.qq.com/s/R_D-zTCk5VhZaAXjOVUxUw

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值