终于有人把数据挖掘讲明白了

大数据v

于 2021-11-20 20:15:00 发布

阅读量4.6k

点赞数 8

文章标签：数据挖掘算法大数据编程语言 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zw0Pi8G5C1x/article/details/121448227

版权

本文介绍了数据挖掘的预测性和描述性两类方法，包括决策树、聚类等算法，并探讨了CRISP-DM和SEMMA两种常用的数据挖掘方法论。此外，文章提出了数据挖掘建模的3个原则，以成本-收益分析、分析主体和客体视角以及全模型生命周期工作模板为核心。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。

作者：赵仁乾田建中叶本华常国珍

来源：大数据DT（ID：hzdashuju）

数据挖掘是一个多学科交叉的产物，涉及统计学、数据库、机器学习、人工智能及模式识别等多种学科，如图1-4所示。

▲图1-4 数据挖掘

01 数据挖掘方法分类介绍

数据挖掘方法按照来源进行分类显得过于庞杂，而且不便于理解和记忆。按照其目的，将数据挖掘方法分为预测性和描述性两大类，如下所示。

目的：预测性
定义：有监督学习，分类模型，用一个或多个自变量预测因变量的值　举例：客户是否会违约是一个因变量，可以根据客户的性别、年龄、收入、职位、经济状况、历史信用状况等因素进行预测
主要算法：决策树、线性回归、逻辑回归、支持向量机、神经网络、判别分析等

目的：描述性
定义：无监督学习，分析具有多个属性的数据集，找出潜在的模式，没有因变量
举例：观察个体之间的相似程度，如根据年龄、性别、收入等因素进行客户细分。根据客户对多个产品的购买情况发现产品之间的相关性
主要算法：聚类、关联分析、因子分析、主成分分析、社交网络分析等

1. 预测性——有监督学习

预测性分析指的是用一个或多个自变量预测因变量的值，以历史数据为训练集，从中学习并建立模型，然后将此模型运用到当前数据上，推测结果。以客户违约作为预测性分析的研究场景，客户是否会违约是一个因变量，我们可以根据客户的性别、年龄、收入、职位、经济状况、历史信用状况等进行预测。

根据SAS工程师总结的商业案例，分类模型可分为三大类。

决策类，如银行卡欺诈检测、人体生物特征识别。
等级评定类，如客户信用评分。
估计类，如违约损失准备金估计、收入预测等。

有些数据挖掘算法在某类应用上表现得更好，如最近邻域法、支持向量机在决策类应用上表现良好，但是在解决排序类和估计类问题时表现一般。而有些数据挖掘算法的表现比较稳定，如决策树和逻辑回归对三类问题都适用，但是在决策类问题上没有在后两类问题上表现好。

2. 描述性——无监督学习<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。