(持续更新中)
-
第一章 导论
什么是数据挖掘
三个概念:
知识:就是要通过一定的判断来得出答案,不是浅显的数据
主要的四个方面
以下是这四个方面的基础了解
关联规则挖掘:
通俗来说,就是不少人去超市,买了面包也很有可能会买牛奶,所以商家把牛奶和面包放在一块或者是捆起来一起卖
监督式机器学习:(分类,比如让计算机判定哪个是苹果,哪个是梨)
标签分类:
数值预测:
聚类分析:
(比如我有一个篮子,要把里面的水果分到两个篮子里,我先拿出一个放在左边的篮子,再拿出一个
跟第一个比较,进行相似度计算,如果像的话,放在一起,不像放在右边的篮子里,以此类推)
回归:
-
认识数据
一些术语
数据对象=一行数据
数据集的一列数据=属性
数据对象也称为样品 实例 示例 数据点 对象 元组
属性的四种类型:
标称,序数,区间,比率
标称:
对称二进制和不对称二进制的区别:
对称:性别:男和女数量大致相等
不对称:核酸检测:得阳性的人和得阴性的人数量
序数
区间
比率
(区别于区间:有0点)
数据统计汇总
分位数,箱型图:
箱型图包括:
比最小值小,比最大值大的:离群点
数据可视化
箱型图:
直方图:
蓝色区域表示第一种花的花萼长度
红色第二种 绿色第三种
很容易看出来三种花的区别
小问题:
散点图:
优点1:
(正相关,负相关,不相关)
可以看出来房屋面积和建筑面积和房价有较高正相关
优点2:
(女性在左下角 男性在右上角)
数据相似性
数据相似性度量(聚类:利用相似性分类)
d(2,1):第二个数据和第一个数据的距离
对角线的0代表:自己与自己的距离为0
问:
众所周知 我们有4个数据类型
每个数据类型有不一样的计算方法
标称型:
p:总共有四个属性 m:只有属性1对上了
标称数据中有特殊的数据类型:二进制类型,怎么计算距离?
将两个数据的对象形成一个邻接表(比如jack和mary)
形成一个领接矩阵
q:都呈阳性的有多少个
r:jack生病的为1的 mary没病的为0的有多少个
以此类推
提问:
为什么要把t去掉?
补充:
计算答案:(因为是非对称二进制数据)