山东大学软件学院大数据2021级数据挖掘期末回忆版

最新推荐文章于 2024-08-08 18:37:17 发布

SamWangSDU

最新推荐文章于 2024-08-08 18:37:17 发布

阅读量851

点赞数 11

文章标签：大数据数据挖掘人工智能经验分享

本文链接：https://blog.csdn.net/weixin_63184383/article/details/136323300

版权

山东大学软件学院2021级大数据专业数据挖掘期末回忆版

（前言：欢声笑语中走出考场，怀着非常沉重的心情写下这个回忆版。总结就是：题量很大、巨大、非常大，最后一分钟才勉强写完，很多同学基本上都空着许多题。建议考试时前面的破概念题快写，别浪费时间在这些上面，不要追求完美的答案组织结构，写完才是王道~）

一、基本概念

1、数据预处理的步骤有哪些，每个步骤的主要工作？
2、维度规约有哪两种方法？有什么特点？
3、数据仓库的四个特征，画出经典的数据仓库体系结构图。
4、数据集成的概念，以及为什么进行数据集成？画出一种数据集成的经典结构。
5、写出离群点挖掘算法中K-近邻的距离的计算公式。

二、分类评估部分内容

给出了COVID病毒阳性率检测的两个模型的预测情况：
网图，但是用起来没毛病在这里插入图片描述
1、计算各自的准确率、精度、召回率、错误率。
2、说明在实际中应该使用那种模型更加靠谱。（准确率接近，看召回率）

三、认识数据部分内容

给出了一组数据的最小值、最大值、中位数、上四分位数、下四分位数，画出它的箱线图，写出期间的计算过程（主要是注意四分位差，这个题还好）。

四、数据仓库逻辑建模

给出了三个维度location,time,item和两个度量值sales_count和sales_avg，location的粒度层次包括location_name,city,country;time的粒度层次包括day,month,quarter,year;item的层次包括item_name,brand,type。
1、画出星型模型或雪花模型。
2、如果要查询“2023年第一季度所有品牌的销售情况”，OLAP的操作该怎么写？
3、如果要在数据仓库体现不同的粒度层次，根据上面建立的逻辑模型，应该怎么转换。

五、关联规则挖掘——FP树

给出了事务数据库（类似于下面，但是那个图巨模糊，数半天，好无语，后面也没机会检查数的对不对，gg）：
在这里插入图片描述
1、写出该事务数据库的转换过程，写出最后的转换结果。（支持度计数，排序，映射这几个阶段写写）
2、什么是条件模式基，给定了一个项t，让找出它的条件模式基，并进行频繁项集的挖掘。（条件模式基计数，画条件模式树）
3、根据2中找到的频繁项集，生成关联规则，置信度为30%。（考场上都无语了，明明考前复习说FP-TREE不考规则挖掘，只考频繁项集挖掘，考场上看到人都傻了，gg）
4、兴趣度度量的方法有哪几种？并写出一种主观性度量的方法。

六、序列模式挖掘——Apriori-ALL

给出了一个事务数据库（类似于下面）：
在这里插入图片描述
1、写出转换后的序列数据库。（找出所有的频繁项集，进行映射和裁剪，算吧，一算一个不吱声）
2、Apriori-ALL算法中有几次用到了Apriori算法的连接思想？分别是在哪里，有什么不一样？
3、说明Apriori算法的连接过程是如何由Lk-1生成Ck。
2、分别举例说明Apriori,Apriori-ALL,GSP算法由Lk-1生成Ck的过程。

七、密度聚类——DBSCAN

给出了一个超大的距离矩阵（类似于下面，但比下图大）：
在这里插入图片描述
1、写出使用DBSCAN算法对上述数据进行聚类的过程和结果。
2、根据1中的结果，写出所有的核心对象。
3、根据聚类的结果，写出两组密度可达和密度相连的数据。
4、给出了OPTICS算法最终的聚类图（类似于下面）：
在这里插入图片描述
写出最终的聚类结果。并说明没有并入簇中的点该怎么处理？

八、层次聚类——BIRTCH

这个题就是PPT上的例子：
x1=0.5 x2=0.25 x3=0,x4=0.65 x5=1 x6=1.4 x7=1.1
T = 0.15,B = 2,L = 2
1、给出了插入完前4个点之后的图（下图是PPT上的，这个图是错的），让写出插入x5时计算和比较过程：
在这里插入图片描述
2、画出插入x5之后的CF树。