数据挖掘mooc国防科技大学笔记(自留)

本文是国防科技大学数据挖掘课程的笔记,涵盖了数据预处理、分类算法(如朴素贝叶斯、决策树)、聚类分析、关联规则挖掘等内容,并探讨了数据挖掘中的关键概念和技术,如数据清洗、数据转换、信息熵和增熵算法等。
摘要由CSDN通过智能技术生成

(持续更新中)

  • 第一章 导论

什么是数据挖掘
数据挖掘的概念
三个概念:
三个概念
知识:就是要通过一定的判断来得出答案,不是浅显的数据

主要的四个方面
在这里插入图片描述
以下是这四个方面的基础了解
关联规则挖掘:
在这里插入图片描述
通俗来说,就是不少人去超市,买了面包也很有可能会买牛奶,所以商家把牛奶和面包放在一块或者是捆起来一起卖

监督式机器学习:(分类,比如让计算机判定哪个是苹果,哪个是梨)
标签分类:
在这里插入图片描述

数值预测:
在这里插入图片描述
聚类分析:
(比如我有一个篮子,要把里面的水果分到两个篮子里,我先拿出一个放在左边的篮子,再拿出一个
跟第一个比较,进行相似度计算,如果像的话,放在一起,不像放在右边的篮子里,以此类推)
在这里插入图片描述
回归:
在这里插入图片描述

  • 认识数据

一些术语

数据对象=一行数据
数据集的一列数据=属性
数据对象也称为样品 实例 示例 数据点 对象 元组
yixie
属性的四种类型:
标称,序数,区间,比率
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
标称:
对称二进制和不对称二进制的区别:
对称:性别:男和女数量大致相等
不对称:核酸检测:得阳性的人和得阴性的人数量
在这里插入图片描述
序数
在这里插入图片描述
区间
在这里插入图片描述
比率
(区别于区间:有0点)
在这里插入图片描述

数据统计汇总

在这里插入图片描述
分位数,箱型图:
在这里插入图片描述
在这里插入图片描述
箱型图包括:
在这里插入图片描述
比最小值小,比最大值大的:离群点

数据可视化

在这里插入图片描述
箱型图:
在这里插入图片描述
直方图:
蓝色区域表示第一种花的花萼长度
红色第二种 绿色第三种
很容易看出来三种花的区别
在这里插入图片描述
小问题:
在这里插入图片描述
散点图:
优点1:
在这里插入图片描述
(正相关,负相关,不相关)
在这里插入图片描述
可以看出来房屋面积和建筑面积和房价有较高正相关

优点2:
在这里插入图片描述
(女性在左下角 男性在右上角)

数据相似性

数据相似性度量(聚类:利用相似性分类)
在这里插入图片描述
d(2,1):第二个数据和第一个数据的距离
对角线的0代表:自己与自己的距离为0
在这里插入图片描述
问:
在这里插入图片描述
众所周知 我们有4个数据类型
每个数据类型有不一样的计算方法
标称型:
在这里插入图片描述
p:总共有四个属性 m:只有属性1对上了
标称数据中有特殊的数据类型:二进制类型,怎么计算距离?
在这里插入图片描述
将两个数据的对象形成一个邻接表(比如jack和mary)
形成一个领接矩阵
在这里插入图片描述
q:都呈阳性的有多少个
r:jack生病的为1的 mary没病的为0的有多少个
以此类推
在这里插入图片描述
在这里插入图片描述
提问:
为什么要把t去掉?
在这里插入图片描述
补充:
在这里插入图片描述
计算答案:(因为是非对称二进制数据)
在这里插入图片描述

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值