第一步:分类问题
数据很多,但是信息很少
给出一推数据,数据带有属性
为什么能够分好坏呢,因为之前已经知道了,有训练集
数据分为两部分:第一部分为训练集–>生成模型
第二部分:测试集–>判定这个模型的好坏
用户的流失率、促销活动的响应和用户度的评价属于数据挖掘的分类问题。
掌握分类的特点,知道什么是监督学习,掌握常用的分类方法:决策树、拜厄斯、KNN、支持向量机、神经网络和Logistic回归。
第二步:聚类问题
细分市场和客户群细分属于数据挖掘的聚类问题。掌握聚类的特点,了解无监督学习,理解常用的聚类算法,如分区聚类、层次聚类、密度聚类、网格聚类、模型聚类等。
第三步:相关问题
交叉销售与相关问题相关,关联分析也被称为购物篮分析。掌握常用的关联分析算法:Aprior算法、CARMA算法、序列算法等。
第四步:预测问题
简单的线性回归分析、多元线性回归分析、时间序列
第一层次:理解水平
数据库+统计+ SPSS
第二层次:中级水平
R
第三层次:达到数据挖掘的划分层次
R+Python