☀️数据挖掘期末复习汇总(再也不用熬夜复习了)

填空题
欧几里得距离(欧氏距离)

例题:测试样本,属性为:[1,0,2],训练样本,属性为:[2,0,2],求测试样本到训练样本的欧氏距离。

答案:1

公式参考

image-20210626004034450

余弦相似度

例题:x=[3,2,0,5,0,0,0,2,0,0],y=[1,0,0,0,0,0,0,1,0,2],求两者之间的夹角余弦相似度

答案:0.31

image-20210626005550988

公式参考

image-20210626004246091


image-20210626005842755

简单匹配系数

例题:x=[0,1,1,0,0],y=[1,1,0,0,1],求两者之间的简单匹配系数

答案:0.4

公式参考

image-20210626005957729

Jaccard系数

例题:x=[0,1,1,0,0],y=[1,1,0,0,1],求两者之间的Jaccard相似性系数

答案:0.25

公式参考

image-20210626010120523


数据集的Classification Error

例题:已知一个数据集,其中有3个类的样本,这3个类的样本数量分别为1、1、3,求Classification Error

答案: 0.4

解答在这里插入图片描述

公式参考

image-20210626010620383

数据集的GINI(基尼系数)

例题:已知一个数据集,其中有2个类的样本,这2个类的样本数量分别为1、3,求该数据集的GINI。

答案: 0.375

解答:在这里插入图片描述

参考公式

image-20210626011227442


召回率

例题:TP=90,FN=20,TN=120,FP=10,计算其召回率

答案: 9/11

公式参考

精度

例题:TP=90,FN=20,TN=120,FP=10,求计算其精度

答案: 9/10

公式


问答题
简述支持向量机的“最大边缘”原理

即追求分类器的泛化能力最大化。即希望所找到的决策边界,在满足将两类数据点正确的分开的前提下,对应的分类器边缘最大。这样可以使得新的测试数据被错分的几率尽可能小。

简述软边缘支持向量机的基本工作原理

对存在数据污染、近似线性分类的情况,可能并不存在一个最优的线性决策超平面;当存在噪声数据时,为保证所有训练数据的准确分类,可能会导致过拟合。因此,需要允许有一定程度“错分”,又有较大分界区域的最优决策超平面,即软间隔支持向量机。
软间隔支持向量机通过引入松弛变量、惩罚因子,在一定程度上允许错误分类样本,以增大间隔距离。在分类准确性与泛化能力上寻求一个平衡点。

简述非线性支持向量机的基本工作原理

对非线性可分的问题,可以利用核变换,把原样本映射到某个高维特征空间,使得原本在低维特征空间中非线性可分的样本,在新的高维特征空间中变得线性可分,并使用线性支持向量机进行分类。


计算题
朴素贝叶斯分类

image-20210626105424691

问题

  1. 已知训练数据集如上图:该数据集中,求P(yes), P(no)
  2. 已知待分类的测试样本X=(有房=否,婚姻=已婚)

参考步骤

image-20210626110344908

答案参考

image-20210626110249630


ID3决策树,计算数据集的熵、期望和信息增益

image-20210626112306038

熵公式参考

  1. 求该数据集的熵为 Info(D)。

    P(yes)=0.6,P(no)= 0.4

    Info(D) = –(3/5)log2(3/5)–(2/5)log2(2/5)

  2. 以Attribute1为分裂属性,将数据集分成三个子集D1、D2、D3,分别对应Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。求这三个子集的熵

    计算三个子集的样本数量与原始数据集的比例

    D1:0.4 D2:0.2 D3:0.4

    求D1的熵。

    P(yes)=1/4,P(no)= 3/4

    Info(D1)=– (1/4)log2(1/4)–(3/4)log2(3/4)

    同理

    Info(D2) = – 1log2(1)

    Info(D3) = – (1/4)log2(1/4)–(3/4)log2(3/4)


期望信息公式参考

image-20210626113613762

  1. 以Attribute1为分裂属性,将数据集分成三个子集D1、D2、D3,分别对应Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。求该划分的期望信息

    InfoA(D) = P(D1)xInfo(D1)+P(D1)xInfo(D1)+P(D1)xInfo(D1)

    InfoA (D) =image-20210626170037677

    提示:image-20210626170520402

  2. 在上题的基础上,求该划分的信息增益

    Gain(A)= Info(D)- InfoA(D)

    image-20210626170842522

    信息增益公式参考

    image-20210626170745619


欧氏距离和KNN分类

已知有5个训练样本,分别为:
样本1,属性为:[2,0,2] 类别 0
样本2,属性为:[1,5,2] 类别 1
样本3,属性为:[3,2,3] 类别 1
样本4,属性为:[3,0,2] 类别 0
样本5,属性为:[1,0,6] 类别 0

有1个测试样本,属性为:[1,0,2]

(1)测试样本到5个训练样本(样本1、2、3、4、5)的欧氏距离依次为:1、5、3、2、4

(2)K=3,距离测试样本最近的k个训练样本依次为:样本1、样本4、样本3

(3)距离最近的k个训练样本类别依次为:类别0、类别0、类别1

(4)KNN算法得到的测试样本的类别为: 类别0

注意:具体欧氏距离参考上面填空做法,KNN测试样本类别,选择K个中出现频率最高的。


求给定数据集的频繁K项集、指定关联规则的支持度及置信度

公式参考

image-20210626173622144

例题

image-20210626173349552

已知购物篮数据如下表所示,回答以下问题。

(1)计算所有2项集及其支持度。

{Bread,Mike}:s = 3/5
{Bread,Diaper}:s = 4/5
{Bread,Beer}:s = 2/5
{Diaper,Mike}:s = 4/5
{Beer,Mike}:s = 2/5
{Diaper,Beer}:s = 3/5

(2)给定最小支持度阈值为2/5,列出所有频繁2项集。

所有的S都大于等于最小支持度阈值
{Bread,Mike}{Bread,Diaper}{Bread,Beer}{Diaper,Mike}{Beer,Mike}{Diaper,Beer}

(3)关联规则X->Y的支持度计算公式是什么?

image-20210626174332631

(4)关联规则X->Y的置信度计算公式是什么?

image-20210626174344028

(5)计算规则{Milk, Bread }->{ Diaper }的支持度和置信度。

即求{Milk, Bread,Diaper }的支持度. 
其支持度计数为3,事务总数为5.
故支持度s({Milk, Bread,Diaper }) = 3/5.
{Milk, Bread }的支持度计数为3.
所以{Milk, Bread }->{ Diaper }的置信度c=3/3 = 1
  • 30
    点赞
  • 281
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 16
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

°PJ想做前端攻城狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值