一、数据挖掘的内容
1、关联规则挖掘
(1)关联规则挖掘工作内容
关联规则挖掘是指寻找给定数据集中项之间的有趣关联或相关联系(频繁出现的项集模式知
识);可以帮助许多决策的制定。
2、非监督式机器学习-聚类
(1)处理数据的类型
处理的是没有事先标记分类的数据。
(2)常见的五种聚类算法
①K-means;
②Hierarchical;
③GMM;
④DBSCAN(基于密度的聚类算法);
⑤基于网格Grid的聚类算法;
3、监督式机器学习
(1)监督式机器学习解释
可以由训练资料中学到或建立一个模式(函数 / learning model),并依此模式推测新的实
例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值
(2)监督式机器学习工作内容
①离散标签预测——标签分类;
②连续标签预测——数值预测;
4、回归
(1)回归解释
回归是指一种用于预测任何连续值属性的监督机器学习技术。回归有助于任何业务组织分析
目标变量和预测变量的关系。
二、认识数据
1、数据类型和统计
(1)数据对象
一个数据对象代表一个实体,而一个或多个数据对象组成一个或多个数据集;
(2)属性的类型
①标称类型的数据(状态可列举的数据),例如:类别、状态,特殊情况:二进制类型数据
(通常只有两个状态的数据),二进制类型数据又分为对称二进制类型数据(数据的两个状态数量
规模相当)和不对称二进制类型数据(这两个状态数据规模差距很大);
②序数类型数据:通常有一个有意义的顺序;
③区间标注属性:通常没有零点,所以它的倍数没有意义;
④比率标度属性:具有固定零点的数值属性,有序且可以计算倍数,例:长度、重量等;
2、数据统计汇总
(1)中性化趋势度量
均值、中位数和众数;
(2)分布趋势度量
三、数据可视化
1、箱线图分析
(1)箱线图功能
箱线图能够分析多个属性数据的分布差异性。
(2)箱线图例
2、直方图分析
(1)直方图的功能
用来分析单个属性在各个区间的变化分布。
(2)直方图例
3、散点图分析
(1)散点图的功能
用来显示两组数据的相关性分析(正相关和负相关以及不相关)。
(2)散点图例
四、数据相似性
1、度量数据的相似性和相异性
(1)数据矩阵
N个数据,p个维度;
(2)相异矩阵
N个数据点,记录两点之间的距离,是三角矩阵;
(3)度量数据的三个特性描述
2、标称属性的邻近性度量
(1)标称属性描述
标称属性可以取两个或者多个状态;
方法:简单匹配;
(2)邻近性度量的计算方法
d(I,j) = (p-m) / p ; 其中m是匹配次数,p是属性总数;
例:
3、二值属性的邻近性度量
(1)这里的q表示两个人的测试(即后面六项)都是阳性(用Y或者P表示的)的有多少个;
(2)这里的r就是表示其中Jack是Y或P,而Marry是N的有多少;
(3)这里的s表示Jack是N,而Marry是Y或者P的有多少;
(4)t表示两个都是N的有多少个;
4、几个重要的距离描述
(1)闵可夫斯基距离
(2)曼哈顿距离
(3)欧氏距离
(4) 上确界距离