数据挖掘学习笔记(一)

本文介绍了数据挖掘的重要性和发展历程,详细阐述了数据挖掘的定义、可以挖掘的数据类型(如数据库数据、数据仓库、事务数据等)以及可以发现的模式(如分类、关联规则、聚类等)。同时,探讨了数据挖掘所使用的技术,包括统计学、机器学习等,并提及了其在商务智能、Web搜索引擎等领域的应用。文章强调了模式评估、用户界面设计和处理不同类型数据的挑战,以及数据挖掘对社会的影响和隐私保护问题。
摘要由CSDN通过智能技术生成

1        引论

1.1   为什么进行数据挖掘

1.1.1           迈向信息时代

数据挖掘把大型数据集转换成知识,帮助我们应对当代的全球性挑战。

1.1.2           数据挖掘是信息技术的进化

数据挖掘可以看做信息技术自然进化的结果。数据库和数据管理产业在一些关键功能的开发上不断发展:数据收集数据库创建(包括数据存储和检索、数据库事务处理)和高级数据分析(包括数据仓库和数据挖掘)。

1.2   什么是数据挖掘

作为一个多学科领域,数据挖掘可以用多种方法定义。

许多人把数据挖掘视为另一个流行术语数据中的知识发现(KDD,Knowledge Discovery in Database)的同义词,而另一些人只是把数据挖掘视为知识发现过程中的一个基本步骤。知识发现过程由以下步骤的迭代序列组成:

(1)    数据清理(消除噪声和删除不一致的数据)

(2)    数据集成(多种数据源可以组合在一起)

(3)    数据选择(从数据库中提取与分析任务相关的数据)

(4)    数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)

(5)    数据挖掘(基本步骤,使用智能方法提取数据模式)

(6)    模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)

(7)    知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

步骤1~4是数据预处理的不同形式,为挖掘准备数据。数据挖掘步骤可能与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放在知识库中。

图1 数据挖掘视为知识发现过程的一个步骤

这种观点把数据挖掘看做知识发现过程的一个步骤,尽管是最重要的一个步骤,因为它发现用来评估的隐藏模式。然而,在产业界、媒体和研究界,“数据挖掘”通常用来表示整个知识发现过程。因此,我们采用广义的数据挖掘功能的观点:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。

1.3   可以挖掘什么类型的数据

1.3.1           数据库数据

数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(称做数据库)和一组管理和存取数据的软件程序组成。软件程序提供如下机制:定义数据库结构和数据存储,说明和管理并发、共享或分布式数据访问,面对系统瘫痪或未授权的访问,确保存储的信息的一致性和安全性。

1.3.2           数据仓库

数据仓库是一个从多个数据源收集的信息存储库,并放在一致的模式下,并且通常驻留在单个站点上数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值