导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。
作者:赵仁乾 田建中 叶本华 常国珍
来源:大数据DT(ID:hzdashuju)
数据挖掘是一个多学科交叉的产物,涉及统计学、数据库、机器学习、人工智能及模式识别等多种学科,如图1-4所示。
▲图1-4 数据挖掘
01 数据挖掘方法分类介绍
数据挖掘方法按照来源进行分类显得过于庞杂,而且不便于理解和记忆。按照其目的,将数据挖掘方法分为预测性和描述性两大类,如下所示。
目的:预测性
定义:有监督学习,分类模型,用一个或多个自变量预测因变量的值 举例:客户是否会违约是一个因变量,可以根据客户的性别、年龄、收入、职位、经济状况、历史信用状况等因素进行预测
主要算法:决策树、线性回归、逻辑回归、支持向量机、神经网络、判别分析等
目的:描述性
定义:无监督学习,分析具有多个属性的数据集,找出潜在的模式,没有因变量
举例:观察个体之间的相似程度,如根据年龄、性别、收入等因素进行客户细分。根据客户对多个产品的购买情况发现产品之间的相关性
主要算法:聚类、关联分析、因子分析、主成分分析、社交网络分析等
1. 预测性——有监督学习
预测性分析指的是用一个或多个自变量预测因变量的值,以历史数据为训练集,从中学习并建立模型,然后将此模型运用到当前数据上,推测结果。以客户违约作为预测性分析的研究场景,客户是否会违约是一个因变量,我们可以根据客户的性别、年龄、收入、职位、经济状况、历史信用状况等进行预测。
根据SAS工程师总结的商业案例,分类模型可分为三大类。
决策类,如银行卡欺诈检测、人体生物特征识别。
等级评定类,如客户信用评分。
估计类,如违约损失准备金估计、收入预测等。
有些数据挖掘算法在某类应用上表现得更好,如最近邻域法、支持向量机在决策类应用上表现良好,但是在解决排序类和估计类问题时表现一般。而有些数据挖掘算法的表现比较稳定,如决策树和逻辑回归对三类问题都适用,但是在决策类问题上没有在后两类问题上表现好。
2. 描述性——无监督学习<