山东大学软件学院大数据2021级数据挖掘期末回忆版

山东大学软件学院2021级大数据专业数据挖掘期末回忆版

(前言:欢声笑语中走出考场,怀着非常沉重的心情写下这个回忆版。总结就是:题量很大、巨大、非常大,最后一分钟才勉强写完,很多同学基本上都空着许多题。建议考试时前面的破概念题快写,别浪费时间在这些上面,不要追求完美的答案组织结构,写完才是王道~)

一、基本概念

1、数据预处理的步骤有哪些,每个步骤的主要工作?
2、维度规约有哪两种方法?有什么特点?
3、数据仓库的四个特征,画出经典的数据仓库体系结构图。
4、数据集成的概念,以及为什么进行数据集成?画出一种数据集成的经典结构。
5、写出离群点挖掘算法中K-近邻的距离的计算公式。

二、分类评估部分内容

给出了COVID病毒阳性率检测的两个模型的预测情况:
网图,但是用起来没毛病在这里插入图片描述
1、计算各自的准确率、精度、召回率、错误率。
2、说明在实际中应该使用那种模型更加靠谱。(准确率接近,看召回率)

三、认识数据部分内容

给出了一组数据的最小值、最大值、中位数、上四分位数、下四分位数,画出它的箱线图,写出期间的计算过程(主要是注意四分位差,这个题还好)。

四、数据仓库逻辑建模

给出了三个维度location,time,item和两个度量值sales_count和sales_avg,location的粒度层次包括location_name,city,country;time的粒度层次包括day,month,quarter,year;item的层次包括item_name,brand,type。
1、画出星型模型或雪花模型。
2、如果要查询“2023年第一季度所有品牌的销售情况”,OLAP的操作该怎么写?
3、如果要在数据仓库体现不同的粒度层次,根据上面建立的逻辑模型,应该怎么转换。

五、关联规则挖掘——FP树

给出了事务数据库(类似于下面,但是那个图巨模糊,数半天,好无语,后面也没机会检查数的对不对,gg):
在这里插入图片描述
1、写出该事务数据库的转换过程,写出最后的转换结果。(支持度计数,排序,映射这几个阶段写写)
2、什么是条件模式基,给定了一个项t,让找出它的条件模式基,并进行频繁项集的挖掘。(条件模式基计数,画条件模式树)
3、根据2中找到的频繁项集,生成关联规则,置信度为30%。(考场上都无语了,明明考前复习说FP-TREE不考规则挖掘,只考频繁项集挖掘,考场上看到人都傻了,gg)
4、兴趣度度量的方法有哪几种?并写出一种主观性度量的方法。

六、序列模式挖掘——Apriori-ALL

给出了一个事务数据库(类似于下面):
在这里插入图片描述
1、写出转换后的序列数据库。(找出所有的频繁项集,进行映射和裁剪,算吧,一算一个不吱声)
2、Apriori-ALL算法中有几次用到了Apriori算法的连接思想?分别是在哪里,有什么不一样?
3、说明Apriori算法的连接过程是如何由Lk-1生成Ck。
2、分别举例说明Apriori,Apriori-ALL,GSP算法由Lk-1生成Ck的过程。

七、密度聚类——DBSCAN

给出了一个超大的距离矩阵(类似于下面,但比下图大):
在这里插入图片描述
1、写出使用DBSCAN算法对上述数据进行聚类的过程和结果。
2、根据1中的结果,写出所有的核心对象。
3、根据聚类的结果,写出两组密度可达和密度相连的数据。
4、给出了OPTICS算法最终的聚类图(类似于下面):
在这里插入图片描述
写出最终的聚类结果。并说明没有并入簇中的点该怎么处理?

八、层次聚类——BIRTCH

这个题就是PPT上的例子:
x1=0.5 x2=0.25 x3=0,x4=0.65 x5=1 x6=1.4 x7=1.1
T = 0.15,B = 2,L = 2
1、给出了插入完前4个点之后的图(下图是PPT上的,这个图是错的),让写出插入x5时计算和比较过程:
在这里插入图片描述
2、画出插入x5之后的CF树。

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值