T-SQL基础教程：数据生命周期

最新推荐文章于 2022-08-15 08:56:12 发布

ZhangHongju

最新推荐文章于 2022-08-15 08:56:12 发布

阅读量3.2k

点赞数 1

分类专栏： SQL Server 文章标签： sql 联机事务处理数据仓库商业智能数据挖掘

SQL Server 专栏收录该内容

60 篇文章 1 订阅

订阅专栏

作者：Itzik Ben-Gan

图书：http://item.jd.com/11362891.html

输入到数据库的中数据以及后期查询出的数据，通常被认为是静态的东西，但在许多环境中，数据其实更类似于在流水线上的产品，另一个环境移动到一个环境，并在线上进行转换。本节介绍数据可以驻留的不同环境，以及数据生命周期各个阶段的数据和环境特征。图1-4举例说明了数据生命周期。

图1-4 数据生命周期

这是每个缩略词所代表的简要说明。

OLTP：联机事务处理。
DSA：数据准备区。

DW：数据仓库。
BISM：商业智能语义模型。
DM：数据挖掘。
ETL：提取、转换和加载。
MDX：多维表达式。
DAX：数据分析表达式。
DMX：数据挖掘扩展插件。

1．联机事务处理

数据开始输入到联机事务处理（OLTP）系统，OLTP系统的重点是数据输入，而不是数据报告──事务主要是插入、更新和删除数据。关系模型主要是针对OLTP系统，规范化的模型为数据输入和数据一致性提供了良好的性能。在规范化环境中，每个表代表一个实体并保持最小冗余。当需要修改一个细节时，你仅需在一个位置修改，这样对于数据修改可以获得最优性能，并减少出错几率。

不过，OLTP环境并不适合报告，因为规范化的模型通常涉及多个表（用于对应每个实体）以及复杂的关联。即使是简单的报表也需要联接许多表，结果是造成查询复杂和表现欠佳。

你可以在SQL Server中实现一个OLTP数据库，并使用T-SQL进行管理和查询。

2．数据仓库

数据仓库（DW）是一个以检索数据和报告为目的设计的环境。当它服务于整个组织时，这样的环境叫做数据仓库；当它仅服务于组织的一部分（如特定部门）或是组织的一个主题区域时，叫做数据集市。数据仓库主要是为了支持数据检索需求进行的数据模型设计和优化，模型故意进行了冗余、减少表和简化关系，最终结果是与OLTP环境相比更加简单、查询更高效。

最简单的数据仓库设计称为星型架构。星型架构包括多个维度表和一个事实表，每个维度表表示要分析的数据主题。例如，在订单和销售处理系统中，你可能要分析客户、产品、雇员、时间以及类似主题数据。星型架构中，每个维度以冗余数据方式填充成一个单个表。例如，产品维度会被填充成一个单个表ProductDim，替代3个规范化表：Products、ProductSubCategories和ProductCategories。如果要规范化一个维度表，会产生多个表来表示该维度，得到一个所谓的雪花维度。包含雪花维度的架构称为雪花架构（而不是星型架构）。

事实表包含事实和度量，如数量和每个相关组合维度键的值。例如，对于客户、产品、雇员和天数的每个相关组合，事实表会有一个行包含数量和值。请注意，数据仓库中的数据通常是预先聚合到一定的粒度级别（例如天），不像OLTP环境中的数据，它通常是在事务级别记录。

过去，SQL Server的早期版本主要针对OLTP环境，但最终SQLServer也开始面对数据仓库系统和数据分析需求。你可以用SQL Server数据库来实现数据仓库，并使用T-SQL进行管理和查询。

从源系统（OLTP及其他）提取数据、处理数据并将其加载到数据仓库的过程，称为提取、转换和加载，或是ETL。SQL Server提供了一个称为Microsoft SQL ServerIntegration Services（SSIS）的工具来处理ETL的需求。

ETL过程往往会涉及OLTP和DW之间数据准备区（DSA）的使用，DSA通常驻留在像SQL Server数据库这样的关系数据库中，并作为数据清洗区域使用。DSA没有对最终用户开放。

3．商业智能语义模型

商业智能语义模型（BISM）是微软支持完整BI堆栈应用的最新模型，目的是提供丰富、灵活、高效、可扩展的分析和报告功能。其体系结构包括三层：数据模型、业务逻辑与查询、数据访问。

模型可以部署在Analysis Services服务器或PowerPivot上。Analysis Services是针对BI专业人员和IT人员，而PowerPivot是针对企业用户。对于Analysis Services，你可以使用多维数据模型或表格（关系）。对于PowerPivot，你可以使用表格数据模型。

业务逻辑和查询使用两种语言：多维表达式（MDX）基于多维概念；数据分析表达式（DAX）基于表格的概念。

数据访问层可以从不同来源获取数据：像DW这样的关系型数据库、文件、云服务、行业（line of business，LOB）应用程序、Odata订阅等。数据访问层既可以在本地缓存数据，也可以仅作为连接数据源的直通层。缓存模式下可以有两种存储引擎方式选择，一种是称为MOLAP的预先聚合方式，当初设计它是为了支持多维模型称；另一种是称为VertiPaq的新引擎，它实现了列存储概念，具有很高的压缩级别和非常快速的处理引擎，不再需要预先聚合、索引等。

参阅:本节BISM有很多概念要消化——对于一本T-SQL基础知识的图书或许有点太多了。如果你想了解BISM和更多详细介绍，你可以在下面来自Analysis Services团队的博客中找到答案，http://blogs.msdn.com/b/analysisservices/archive/2011/05/16/analysis-services-vision-amp-roadmap-update.aspx。

4．数据挖掘

BISM为用户提供所有可能问题的答案，但用户的任务是提出正确的问题──筛选差异、趋势和其他来自海洋数据的有用信息。动态分析过程中，用户从一个集合视图导航到另一个集合视图，以此类推，交叉分析数据，从而最终找到有用的信息。

数据挖掘（DM）是第二步，数据挖掘模型可以替代用户在数据海洋中查找有用的信息。也就是说，是由数据挖掘算法梳理数据，并从中筛选有用信息。对于组织机构，数据挖掘具有巨大的商业价值，帮助查明趋势，找出客户一起购买的产品，预测基于特定参数的客户选择等。

AnalysisServices支持的数据挖掘算法包括：聚类分析、决策树和其他类似需求。用于管理和查询数据挖掘模型的语言是数据挖掘扩展插件（Data Mining Extensions，DMX）。

ZhangHongju

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
T-SQL基础教程：数据生命周期

输入到数据库的中数据以及后期查询出的数据，通常被认为是静态的东西，但在许多环境中，数据其实更类似于在流水线上的产品，另一个环境移动到一个环境，并在线上进行转换。本节介绍数据可以驻留的不同环境，以及数据生命周期各个阶段的数据和环境特征。图1-4举例说明了数据生命周期。
复制链接

扫一扫

专栏目录