数据挖掘导论-概述

1、数据挖掘概念

数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。数据挖掘是数据库中知识发现(knowledge discovery database KDD)不可缺少的 部分,而KDD是将未加工过的数据转换为有用信息的过程,包括数据预处理、数据挖掘和后处理等过程。

数据预处理:目的是将未加工的输入数据转化成适合分析的形式,包括融合多个数据源的数据,清洗数据以消除噪声或者重复的观测值,选择与当前数据挖掘人物相关的记录和特征。

2.数据挖掘任务分类

(1)预测建模(predictive modeling)包括分类(classification,用于预测离散的目标变量)和回归(regression),用于预测连续的目标变量。

(2)关联分析(association analysis),用来发现描述数据中强关联特征的模式,所发现的模式通常用蕴含规则或者特征子集的形式表示。

(3)聚类分析(cluster analysis) ,目标是发现紧密相关的观测值组群,使与属于不同簇的观测值相比,属于同一簇的观测值相互之间近可能类似。

(4)异常检测(anomaly detection),识别特征显著不同域其它数据的观测值。这样的观测值称为异常点或者离群点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值