数据挖掘 ------Data Mining(1)

最新推荐文章于 2022-09-17 11:28:22 发布

zxs421819166

最新推荐文章于 2022-09-17 11:28:22 发布

阅读量1.1k

点赞数 1

分类专栏： Data Mining 文章标签：数据挖掘数据库算法工作数据分析网络

Data Mining 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科，包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。

   由于数据挖掘是一门受到来自各种不同领域的研究者关注的交叉性学科，因此导致了很多不同的术语名称。其中，最常用的术语是"知识发现"和"数据挖掘"。相对来讲，数据挖掘主要流行于统计界（最早出现于统计文献中）、数据分析、数据库和管理信息系统界；而知识发现则主要流行于人工智能和机器学习界。

   数据挖掘可粗略地理解为三部曲：数据准备（data preparation）、数据挖掘，以及结果的解释评估（interpretation and evaluation）。

   根据数据挖掘的任务分，有如下几种：分类或预测模型数据挖掘、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等。

   根据数据挖掘的对象分，有如下若干种数据源：关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产（legacy）数据库，以及Web数据源。

   根据数据挖掘的方法分，可粗分为：统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中，可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）、以及模糊集、粗糙集、支持向量机等。机器学习中，可细分为：归纳学习方法（决策树、规则归纳等）、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法，可细分为：前向神经网络（BP算法等）、自组织神经网络（自组织特征映射、竞争学习等）等。数据库方法主要是基于可视化的多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

数据挖掘的工作流程

数据挖掘是从大型数据集中发现可行信息的过程。数据挖掘使用数学分析来派生存在于数据中的模式和趋势。通常，由于这些模式的关系过于复杂或涉及数据过多，因此使用传统数据浏览无法发现这些模式。

这些模式和趋势可以被收集在一起并定义为“数据挖掘模型”。挖掘模型可以应用于特定的业务方案，例如：

A、  预测销售额
B、  向特定客户发送邮件
C、  确定可能需要搭售的产品
D、  查找客户将产品放入购物车的顺序序列

生成挖掘模型是大型过程的一部分，此过程包括从提出相关数据问题并创建模型以解答这些问题到将模型部署到工作环境的所有事情。此过程可以使用下列六个基本步骤进行定义：
1、  定义问题

2、  准备数据

3、  浏览数据

4、  生成模型

5、  浏览和验证模型

6、  部署和更新模型

尽管关系图中所示的过程是一个循环过程，但是每个步骤并不需要直接执行到下一个步骤。创建数据挖掘模型是一个动态、交互的过程。浏览完数据之后，您可能会发现数据不足，无法创建适当的挖掘模型，因此必须查找更多的数据。或者，您可以生成数个模型，但随后发现这些模型无法充分地回答定义的问题，因此必须重新定义问题。您可能必须在部署模型之后对其进行更新，因为又出现了更多的可用数据。可能需要多次重复过程中的每个步骤才能创建良好的模型。

数据挖掘工作流程之一：定义问题

与以下关系图的突出显示相同，数据挖掘过程的第一步就是明确定义业务问题，并考虑解答该问题的方法。

该步骤包括分析业务需求，定义问题的范围，定义计算模型所使用的度量，以及定义数据挖掘项目的特定目标。这些任务转换为下列问题：

您在查找什么？您要尝试找到什么类型的关系？

您要尝试解决的问题是否反映了业务策略或流程？

您要通过数据挖掘模型进行预测，还是仅仅查找受关注的模式和关联？

您要尝试预测数据集的哪个属性？

列如何关联？或者如果有多个表，则表如何关联？

如何分发数据？数据是否具有季节性性质？数据是否可以准确反映业务流程？

若要回答这些问题，可能必须进行数据可用性研究，必须调查业务用户对可用数据的需求。如果数据不支持用户的需求，则还必须重新定义项目。

此外，还需要考虑如何将模型结果纳入用于度量业务进度的关键绩效指标 (KPI)。

数据挖掘工作流程之二：准备数据

如以下关系图中突出显示的那样，数据挖掘过程的第二步就是合并和清除定义问题步骤中标识的数据。

数据可以分散在公司的各个部门并以不同的格式存储，或者可能包含错误项或缺少项之类的不一致性。例如，数据可能显示客户在产品推向市场之前购买该产品，或者客户在距离她家 2,000 英里的商店定期购物。

数据清除不仅仅是删除错误数据，还包括查找数据中的隐含相关性、标识最准确的数据源并确定哪些列最适合用于分析。例如，应当使用发货日期还是订购日期？最佳销售影响因素是数量、总价格，还是打折价格？不完整数据、错误数据和输入看似独立，但实际上有很强的关联性，它们可以以意想不到的方式影响模型的结果。因此，在开始生成挖掘模型之前，应确定这些问题及其解决方式。

数据挖掘工作流程之三：浏览数据

如以下关系图中突出显示的那样，数据挖掘过程的第三步就是浏览已准备的数据。

您必须了解数据，以便在创建挖掘模型时作出正确的决策。浏览技术包括计算最小值和最大值，计算平均偏差和标准偏差，以及查看数据的分布。例如，通过查看最大值、最小值和平均值，您可以确定数据并不能代表客户或业务流程，因此您必须获取更多均衡数据或查看您的预期结果所依据的假定。标准偏差和其他分发值可以提供有关结果的稳定性和准确性的有用信息。大型标准偏差可以指示添加更多数据可以帮助改进模型。与标准分发偏差很大的数据可能已被扭曲，抑或准确反映了现实问题，但很难使模型适合数据。

借助您自己对业务问题的理解来浏览数据，您可以确定数据集是否包含缺陷数据，随后您可以设计用于解决该问题的策略或者更深入地理解业务的典型行为。

数据挖掘工作流程之四：生成模型

如以下关系图中突出显示的那样，数据挖掘过程的第四步就是生成一个或多个挖掘模型。您将使用从浏览数据步骤中获得的知识来帮助定义和创建模型。

通过创建挖掘结构定义要使用的数据。挖掘结构定义数据源，但只有对挖掘结构进行处理后，该结构才会包含任何数据。处理挖掘结构时，Analysis Services 生成可用于分析的聚合信息以及其他统计信息。基于该结构的所有挖掘模型均可使用该信息。

在处理模型之前，数据挖掘模型只是一个容器，指定用于输入的列、要预测的属性以及指示算法如何处理数据的参数。处理模型也称为“定型”。定型表示向结构中的数据应用特定数学算法以便提取模式的过程。在定型过程中找到的模式取决于选择的定型数据、所选算法以及如何配置该算法。

此外，还可以使用参数调整每种算法，并向定型数据应用筛选器，以便仅使用数据子集，进而创建不同结果。在通过模型传递数据之后，即可查询挖掘模型对象包含的摘要和模式，并将其用于预测。

数据挖掘工作流程之五：浏览和验证模型

如以下关系图中突出显示的那样，数据挖掘过程的第五步就是浏览您已经生成的挖掘模型并测试其有效性。

在将模型部署到生产环境之前，您需要测试模型的性能。此外，在生成模型时，您通常需要使用不同配置创建多个模型，并对所有这些模型进行测试，以便查看哪个模型为您的问题和数据生成最佳结果。

数据挖掘工作流程之六：部署和更新模型

如下面的关系图中突出显示的那样，数据挖掘过程的最后一步是将性能最佳的模型部署到生产环境。

当生产环境中部署了挖掘模型之后，便可根据您的需求执行许多任务。下面是一些可以执行的任务：

使用模型创建预测，然后可以使用这些预测作出业务决策。SQL Server 提供可用于创建预测查询的 DMX 语言，同时还提供有助于生成查询的预测查询生成器。

创建内容查询以检索模型中的统计信息、规则或公式

创建可让用户直接对现有挖掘模型进行查询的报表

在查看和分析后更新模型。任何更新都要求您重新处理该模型

随着组织传入的数据不断增多，应将动态更新模型并进行一致更改（以便提高解决方案的效率）作为部署策略的一部分