【中项第三版】系统集成项目管理工程师 | 第 6 章数据工程② | 6.4 - 6.7

Jackilina_Stone

已于 2024-07-25 11:59:12 修改

阅读量696

点赞数 22

分类专栏：【软考】系统集成项目管理工程师文章标签：中项软考中级系统集成项目管理工程师第三版

于 2024-07-25 11:56:23 首次发布

本文链接：https://blog.csdn.net/wss794/article/details/140686003

版权

【软考】系统集成项目管理工程师专栏收录该内容

20 篇文章 6 订阅

订阅专栏

前言

第6章对应的内容选择题和案例分析都可能会进行考查，学习要以教材为准。

6.4 数据仓库和数据资产

6.4.1 数据仓库

数据仓库是一个面向主题的、集成的、随时间变化的、包含汇总和明细的、稳定的历史数据集合。数据仓库通常由数据源、数据的存储与管理、OLAP服务器、前端工具等组件构成。

① 数据源

数据源是数据仓库系统的基础，是整个系统的数据源泉，通常包括企业的内部信息和外部信息。内部信息包括存放于关系型数据库管理系统中的各种业务处理数据和各类文档数据；外部信息包括各类法律法规、市场信息和竞争对手的信息等。

② 数据的存储与管理

数据的存储与管理是整个数据仓库系统的核心。数据仓库真正的关键是数据的存储和管理。针对现有各业务系统的数据，进行抽取、清理，并有效集成，按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库（通常称为数据集市）。

③ OLAP（On-Line Analysis Processing，联机分析处理）服务器

对分析需要的数据进行有效集成，按多维模型予以组织，以便进行多角度、多层次的分析，并发现趋势。其具体实现可以分为：ROLAP（关系数据的关系在线分析处理）、MOLAP（多维在线分析处理）和HOLAP（混合在线分析处理）。ROLAP基本数据和聚合数据均存放在RDBMS之中；MOLAP基本数据和聚合数据均存放于多维数据库中；HOLAP基本数据存放于RDBMS之中，聚合数据存放于多维数据库中。

④ 前端工具

前端工具主要包括各种查询工具、报表工具、分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中，数据分析工具主要针对OLAP服务器，报表工具、数据挖掘工具主要针对数据仓库。

6.4.2 主题库

主题库建设是数据仓库建设的一部分。主题库是为了便利工作、精准快速地反映工作对象全貌而建立的融合各类原始数据、资源数据等，围绕能标识组织、人员、产权、财务等的主题对象，长期积累形成的多种维度的数据集合。例如，人口主题库、土地主题库、企业主题库、产权主题库、财务主题库、组织主题库等。由于每类主题对象具有不同的基本属性、不同的业务关注角度，因此每类主题对象具有不同的描述维度。主题库建设可采用多层级体系结构，即数据源层、构件层、主题库层。

▲数据源层。数据源层存放数据管理信息的各种管理表和数据的各类数据表。

▲构件层。构件层包括基础构件和组合构件。基础构件包括用户交互相关的查询数据、展现数据和存储数据构件，以及数据维护相关的采集数据、载入数据和更新数据构件。组合构件由基础构件组装而成，能够完成相对独立的复杂功能。

▲主题库层。按业务需求通过构建组合，形成具有统一访问接口的主题库。

6.4.3 数据资产管理

数据资产管理（Data Asset Management，DAM）是指对数据资产进行规划、控制和提供的一组活动职能，包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序，从而控制、保护、交付和提高数据资产的价值。数据资产管理须充分融合政策、管理、业务、技术和服务等，从而确保数据资产保值增值。在数字时代，数据是一种重要的生产要素，把数据转化成可流通的数据要素，重点包含数据资源化、数据资产化两个环节。

①数字资源化。通过将原始数据转变为数据资源，使数据具备一定的潜在价值，是数据资产化的必要前提。数据资源化以数据治理为工作重点，以提升数据质量、保障数据安全为目标，确保数据的准确性、一致性、时效性和完整性，推动数据内外部流通。

②数据资产化。通过将数据资源转变为数据资产，使数据资源的潜在价值得以充分释放。数据资产化以扩大数据资产的应用范围、显性化数据资产的成本与效益为工作重点，并使数据供给端与数据消费端之间形成良性反馈闭环。

数据资产流通是指通过数据共享、数据开放或数据交易等流通模式，推动数据资产在组织内外部的价值实现。

▲数据共享是指打通组织各部门间的数据壁垒，建立统一的数据共享机制，加速数据资源在组织内部流动。

▲数据开放是指向社会公众提供易于获取和理解的数据。对于政府而言，数据开放主要是指公共数据资源开放；对于企业而言，数据开放主要是指披露企业运行情况、推动政企数据融合等。

▲数据交易是指交易双方通过合同约定，在安全合规的前提下，开展以数据或其衍生形态为核心的交易行为。

数据价值评估是数据资产管理的关键环节，是数据资产化的价值基线。狭义的数据价值是指数据的经济效益；广义的数据价值是在经济效益之外，考虑数据的业务效益、成本计量等因素。数据价值评估是指通过构建价值评估体系，计量数据的经济效益、业务效益、投入成本等活动。

6.4.4 数据资源编目

数据资源编目是实现数据资产管理的重要手段。数据资源目录体系设计包括概念模型设计和业务模型设计等，概念模型设计明确数据资源目录的构成要素，通过业务模型设计规范数据资源目录的业务框架。数据资源目录的概念模型由数据资源目录、信息项、数据资源库、标准规范等要素构成。

① 数据资源目录。数据资源目录是站在全局视角对所拥有的全部数据资源进行编目，以便对数据资源进行管理、识别、定位、发现、共享的一种分类组织方法，从而达到对数据的浏览、查询、获取等目的。数据资源目录分为资源目录、资产目录和服务目录3个层面。

▲资源目录：能够准确浏览组织所记录或拥有的线上、线下原始数据资源的目录，如电子文档索引、数据库表、电子文件、电子表格、纸质文档等。

▲资产目录：对原始数据资源进行标准化处理，识别数据资产及其信息要素，包括基本信息、业务信息、管理信息和价值信息等，按照分类、分级，登记到数据资产目录中。

▲服务目录：是基于资源和资产目录，对特定的业务场景以信息模型、业务模型等形式对外提供的可视化共享数据目录。服务目录主要分为两类：一类是指标报表、分析报告等数据应用，可以直接使用；另一类是共享接口，提供鉴权、加密、计量、标签化等功能，并对接外部系统。服务目录应以应用场景为切入，以应用需求为导向进行编制。

② 信息项。信息项是将各类数据资源（如表、字段）以元数据流水账的形式清晰地反映出来，以便更好地了解、掌握和管理数据资源。信息项需要通过数据标识符挂接到对应的数据目录。信息项常分为数据资源信息项、数据资产信息项和数据服务信息项3种类型。

▲数据资源信息项：是记录原始数据资源的元数据流水账，是对原始数据资源的定义描述。

▲数据资产信息项：是记录经过一系列处理后所形成的主题数据资源、基础数据资源的元数据流水账，是对数据资产的定义描述。

▲数据服务信息项：是记录需要对外提供数据应用、数据接口两类数据服务的元数据流水账，是对数据服务的定义描述。

③ 数据资源库。数据资源库是存储各类数据资源的物理数据库，常分为专题数据资源库、主题数据资源库和基础数据资源库。

④ 标准规范。数据资源目录体系标准规范包括数据资源元数据规范、编码规范、分类标准等相关标准。元数据规范描述数据资源所必须具备的特征要素；编码规范规定了数据资源目录相关编码的表示形式、结构和维护规则；分类标准规范了数据资源分类的原则和方法。

6.5 数据分析及应用

数据的分析及应用是数据要素价值实现环节的重要活动，是组织实施数据驱动发展的基础，通常涉及数据集成、数据挖掘、数据服务和数据可视化等。

6.5.1 数据集成

数据集成的目标就是充分利用己有数据，在尽量保持其自治性的前提下，维护数据源整体上的一致性，提高数据共享利用效率。实现数据集成的系统称为数据集成系统，它为用户提供了统一的数据源访问接口，用于执行用户对数据源的访问请求。典型的数据集成系统模型如图6-5所示。

① 数据集成方法

数据集成的常用方法有模式集成、复制集成和混合集成，具体描述为：

▲模式集成：也叫虚拟视图方法，是人们最早采用的数据集成方法，也是其他数据集成方法的基础。其基本思想是：在构建集成系统时，将各数据源共享的视图集成为全局模式（GlobalSchema），供用户透明地访问各数据源的数据。

▲复制集成：将数据源中的数据复制到相关的其他数据源上，并对数据源的整体一致性进行维护，从而提高数据的共享和利用效率。数据复制可以是整个数据源的复制，也可以是仅对变化数据的传播与复制。

▲混合集成：该方法为了提高中间件系统的性能，保留虚拟数据模式视图为用户所用，同时提供数据复制的方法。对于简单的访问请求，通过数据复制方式，在本地或单一数据源上实现访问请求；而对数据复制方式无法实现的复杂的用户请求，则用模式集成方法。

② 数据访问接口

常用的数据访问接口标准有ODBC、JDBC、OLEDB和ADO，具体描述为：

▲ODBC(Open Database Connectivity):ODBC是当前被业界广泛接受的、用于数据库访问的应用程序编程接口(APl), 它以X/Open和ISO/IEC的调用接口规范为基础，并使用结构化查询语言（SQL）作为其数据库访问语言。ODBC由应用程序接口、驱动程序管理器、驱动程序和数据源4个组件组成。

▲JDBC(Java Database Connectivity):JDBC是用于执行SQL语句的Java应用程序接口，它由Java语言编写的类和接口组成 JDBC是一种规范，其宗旨是各数据库开发商为Java程序提供标准的数据库访问类和接口。使用JDBC能够方便地向任何关系数据库发送SQL语句。同时，采用Java语言编写的程序不必为不同的系统平台、不同的数据库系统开发不同的应用程序。

▲OLE DB(Object Linking and Embedding Database):OLEDB是一个基于组件对象模型(Component Object Model,COM) 的数据存储对象，能提供对所有类型数据的操作，甚至能在离线的情况下存取数据。

▲ADO(ActiveX Data Objects):ADO是应用层的接口，它的应用场合非常广泛，不仅可用在VC、VB、Delphi等高级编程语言环境，还可用在Web开发等领域。ADO使用简单，易于学习，已成为常用的实现数据访问的主要手段之一。ADO是COM自动接口，几乎所有数据库工具、应用程序开发环境和脚本语言都可以访问这种接口。

③ Web Services技术

Web Services技术是一个面向访问的分布式计算模型，是实现Web数据和信息集成的有效机制。它的本质是用一种标准化式实现不同服务系统之间的互调或集成。它基于XML、SOAP(Simple Object Access Protocol,简单对象访问协议)、WSDL(Wel Services Description Language,Web服务描述语言)和UDDI(Universal Description, Discovery, and Integration,统一描述、发现和集成协议规范）等协议，开发、发布、发现和调用跨平台、跨系统的各种分布式应用。其三要素WSDL、SOAP和UDDI及其组成如图6-6所示。

▲WSDL：WSDL是一种基于XML格式的关于Web服务的描述语言，主要目的在于Web Services的提供者将自己的Web服务的所有相关内容（如所提供的服务的传输方式、服务方法接口、接口参数、服务路径等）生成相应的文档，发布给使用者。使用者可以通过这个WSDL文档，创建相应的SOAP请求（request）消息，通过HTTP传递给Web Services提供者；Web服务在完成服务请求后，将SOAP返回（response）消息传回请求者，服务请求者再根据WSDL文档将SOAP返回消息解析成自己能够理解的内容。

▲SOAP：SOAP是消息传递的协议，它规定了Web Services之间是怎样传递信息的。

简单地说，SOAP规定了：①传递信息的格式为XML，这就使Web Services能够在任何平台上，用任何语言进行实现；②远程对象方法调用的格式，规定了怎样表示被调用对象以及调用的方法名称和参数类型等；③参数类型和XML格式之间的映射，这是因为被调用的方法有时候需要传递一个复杂的参数，怎样用XML来表示一个对象参数，也是SOAP所定义的范围；④异常处理以及其他的相关信息。

▲UDDI：UDDI是一种创建注册服务的规范。简单地说，UDDI用于集中存放和查找WSDL描述文件，起着目录服务器的作用，以便服务提供者注册发布Web Services，供使用者查找。

④ 数据网格技术

数据网格是一种用于大型数据集的分布式管理与分析的体系结构，目标是实现对分布、异构的海量数据进行一体化存储、管理、访问、传输与服务，为用户提供数据访问接口和共享机制，统一、透明地访问和操作各个分布、异构的数据资源，提供管理、访问各种存储系统的方法，解决应用所面临的数据密集型网格计算问题。数据网格的透明性体现为：

▲分布透明性：用户感觉不到数据是分布在不同的地方的；

▲异构透明性：用户感觉不到数据的异构性，感觉不到数据存储方式的不同、数据格式的不同、数据管理系统的不同等；

▲数据位置透明性：用户不用知道数据源的具体位置，也没有必要了解数据源的具体位置；

▲数据访问方式透明性：不同系统的数据访问方式不同，但访问结果相同。

6.5.2 数据挖掘

数据挖掘与传统数据分析存在较大的不同，主要表现在以下4个方面：

①两者分析对象的数据量有差异。数据挖掘所需的数据量比传统数据分析所需的数据量大。数据量越大，数据挖掘的效果越好。

②两者运用的分析方法有差异。传统数据分析主要运用统计学的方法手段对数据进行分析；而数据挖掘综合运用数据统计、人工智能、可视化等技术对数据进行分析。

③两者分析侧重有差异。传统数据分析通常是回顾型和验证型的，通常分析已经发生了什么；而数据挖掘通常是预测型和发现型的，预测未来的情况，解释发生的原因。

④两者成熟度不同。传统数据分析由于研究较早，其分析方法相当成熟；而数据挖掘除基于统计学等方法外，部分方法仍处于发展阶段。

数据挖掘的目标是发现隐藏于数据之后的规律或数据间的关系，从而服务于决策。数据挖掘常见的主要任务包括数据总结、关联分析、分类和预测、聚类分析和孤立点分析。

①数据总结。数据总结的目的是对数据进行浓缩，给出它的总体综合描述。

②关联分析。数据库中的数据一般都存在着关联关系，也就是说，两个或多个变量的取值之间存在某种规律性。关联分析生成的规则带有置信度，置信度度量了关联规则的强度。

③分类和预测。使用一个分类函数或分类模型（也常称作分类器），根据数据的属性将数据分派到不同的组中，即分析数据的各种属性，并找出数据的属性模型，确定哪些数据属于哪些组，这样就可以利用该模型来分析己有数据，并预测新数据将属于哪个组。

④聚类分析。当要分析的数据缺乏描述信息，或者无法组织成任何分类模型时，可以采用聚类分析。聚类分析是按照某种相近程度度量方法，将数据分成一系列有意义的子集合，每一个集合中的数据性质相近，不同集合之间的数据性质相差较大。概念描述又分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述非同类对象之间的区别。

⑤孤立点分析。数据库中的数据常有一些异常记录，与其他记录存在着偏差。孤立点分析（或称为离群点分析）就是从数据库中检测出偏差。偏差包括很多潜在的信息，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差等。

数据挖掘流程一般包括确定分析对象、数据准备、数据挖掘、结果评估与结果应用5个阶段，如图6-7所示。其中，数据准备包括数据选择和数据预处理。数据挖掘过程细分为模型构建过程和挖掘处理过程。为完成这些阶段的任务，需要不同专业人员参与其中，专业人员主要包括业务分析人员、数据挖掘人员和数据管理人员。

6.5.3 数据服务

数据服务主要包括数据目录服务、数据查询与浏览及下载服务、数据分发服务。数据分发服务的核心内容包括数据发布、数据发现、数据评价等。数据发布的内容包括元数据、数据本身、用于数据评价的信息及其他相关信息。

6.5.4 数据可视化

数据可视化主要运用计算机图形学和图像处理技术，将数据转换成图形或图像在屏幕上显示出来，并能进行交互处理，它涉及计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域，是一门综合性的学科，具体如图6-8所示。

由于所要展现数据的内容和角度不同，可视化的表现方式也多种多样，主要可分为7类:一维数据可视化、二维数据可视化、三维数据可视化、多维数据可视化、时态数据可视化、层次数据可视化和网络数据可视化。具体如表6-8所示。

6.6 数据脱敏和分类分级

6.6.1 数据脱敏

数据使用常常需要经过脱敏化处理，即对数据进行去隐私化处理，实现对敏感信息的保护，这样既能够有效利用数据，又能保证数据使用的安全性。

1 敏感数据

敏感数据可以分为个人敏感数据、商业敏感数据、国家秘密数据等。为了更加有效地管理敏感数据，通常会对敏感数据的敏感程度进行划分，例如，可以把数据密级划分为5个等级，分别是L1(公开)、L2(保密)、L3(机密)、L4(绝密)和L5(私密)。

2 数据脱敏

数据脱敏是对各类数据所包含的自然人身份标识、用户基本资料等敏感信息进行模糊化、加扰、加密或转换后形成无法识别、无法推算演绎、无法关联分析原始用户身份标识等的新数据，这样就可以在非生产环境(开发、测试、外包、数据分析等)、非可控环境(跨组织或团队数据应用)、生产环境、数据共享、数据发布等环境中安全地使用脱敏后的真实数据集。

3 数据脱敏方式

数据脱敏方式包括可恢复与不可恢复两类。可恢复类指脱敏后的数据可通过一定的方式，恢复成原来的敏感数据，此类脱敏规则主要指各类加解密算法规则。不可恢复类指脱敏后的数据被脱敏的部分使用任何方式都不能恢复，一般可分为替换算法和生成算法两类。

4 数据脱敏原则

数据脱敏通常需要遵循一系列原则，从而确保组织开展数据活动以及参与这些活动的人员能够在原则的指引下，实施相关工作。数据脱敏原则主要包括算法不可逆原则、保持数据特征原则、保留引用完整性原则、规避融合风险原则、脱敏过程自动化原则和脱敏结果可重复原则等。

▲算法不可逆原则：是指除一些特定场合存在可恢复式数据复敏需求外，数据脱敏算法通常应当是不可逆的，必须防止使用非敏感数据推断、重建敏感原始数据。

▲保持数据特征原则：是指脱敏后的数据应具有原数据的特征，因为它们仍将用于开发或测试场合。在要求较高的情形下，还要求具有与原始数据一致的频率分布、字段唯一性等。

▲保留引用完整性原则：是指数据的引用完整性应予以保留，如果被脱敏的字段是数据表主键，那么相关的引用记录必须同步更改。

▲规避融合风险原则：是指应当预判非敏感数据集多源融合可能造成的数据安全风险。对所有可能生成敏感数据的非敏感字段同样进行脱敏处理。

▲脱敏过程自动化原则：是指脱敏过程必须能够在规则的引导下自动化进行，才能达到可用性要求，更多的是强调不同环境的控制功能。

▲脱敏结果可重复原则：是指在某些场景下，对同一字段脱敏的每轮计算结果都相同或者都不同，以满足数据使用方可测性、模型正确性、安全性等指标的要求。