终于有人把数据挖掘讲明白了

本文介绍了数据挖掘的预测性和描述性两类方法,包括决策树、聚类等算法,并探讨了CRISP-DM和SEMMA两种常用的数据挖掘方法论。此外,文章提出了数据挖掘建模的3个原则,以成本-收益分析、分析主体和客体视角以及全模型生命周期工作模板为核心。
摘要由CSDN通过智能技术生成

导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。

作者:赵仁乾 田建中 叶本华 常国珍

来源:大数据DT(ID:hzdashuju)

数据挖掘是一个多学科交叉的产物,涉及统计学、数据库、机器学习、人工智能及模式识别等多种学科,如图1-4所示。

aba6fa7bea442364e2a6f3937f92ea33.png

▲图1-4 数据挖掘

01 数据挖掘方法分类介绍

数据挖掘方法按照来源进行分类显得过于庞杂,而且不便于理解和记忆。按照其目的,将数据挖掘方法分为预测性和描述性两大类,如下所示。

  • 目的:预测性

  • 定义:有监督学习,分类模型,用一个或多个自变量预测因变量的值  举例:客户是否会违约是一个因变量,可以根据客户的性别、年龄、收入、职位、经济状况、历史信用状况等因素进行预测

  • 主要算法:决策树、线性回归、逻辑回归、支持向量机、神经网络、判别分析等

  • 目的:描述性

  • 定义:无监督学习,分析具有多个属性的数据集,找出潜在的模式,没有因变量

  • 举例:观察个体之间的相似程度,如根据年龄、性别、收入等因素进行客户细分。根据客户对多个产品的购买情况发现产品之间的相关性

  • 主要算法:聚类、关联分析、因子分析、主成分分析、社交网络分析等

1. 预测性——有监督学习

预测性分析指的是用一个或多个自变量预测因变量的值,以历史数据为训练集,从中学习并建立模型,然后将此模型运用到当前数据上,推测结果。以客户违约作为预测性分析的研究场景,客户是否会违约是一个因变量,我们可以根据客户的性别、年龄、收入、职位、经济状况、历史信用状况等进行预测。

根据SAS工程师总结的商业案例,分类模型可分为三大类。

  • 决策类,如银行卡欺诈检测、人体生物特征识别。

  • 等级评定类,如客户信用评分。

  • 估计类,如违约损失准备金估计、收入预测等。

有些数据挖掘算法在某类应用上表现得更好,如最近邻域法、支持向量机在决策类应用上表现良好,但是在解决排序类和估计类问题时表现一般。而有些数据挖掘算法的表现比较稳定,如决策树和逻辑回归对三类问题都适用,但是在决策类问题上没有在后两类问题上表现好。

2. 描述性——无监督学习<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值