哈工大2024春大数据挖掘期末考试回忆版试题

  供学弟学妹们参考,整体上难度很大,尤其是前两道题,非常灵活。上课讲过的证明题也会出现。这里只回忆每道题的大概意思以及分值,不保证完全一样(尤其是分值可能记的不是很准确,但是分值的相对高低是差不多的),供大家参考。

卷面无小题,一共7道大题,共50分。

1.(6分)时间序列数据中,后面的数据会和前面一个或多个数据相关。经典的K交叉验证无法直接用于时间序列数据。请你设计一种可以用于时间序列数据的K交叉验证方法。要求:

(1)详细说明数据划分的方法(2分)

(2)说明如何利用划分后的数据进行验证(2分)

(3)验证结果怎么评价(2分)

2.(6分)MDS是一种常见的降维方法,但是由于数据集中噪声的存在会导致降维结果出现较大偏差。原本距离较远的点可能在降维后的结果中较近,原来距离较近的点可能在降维后的结果中较远。请你设计一种数据预处理方法处理噪声。

(1)分析噪声数据对MDS造成很大影响的原因。(2分)

(2)请你详细论述发现数据集上噪声的方法。(2分)

(3)给出发现噪声后的处理方法。(2分)

3.(8分)推荐系统的题。

(1)说明user-user的推荐系统的做法;如何计算用户评分向量;分析该算法的时间复杂度。(3分)

(2)说明item-itmen的推荐系统的做法;如何计算用户评分向量;分析该算法的时间复杂度。(3分)

(3)现有一个用户数量远多于物品(还是物品远多于用户,忘了是哪个了)的情景,应该使用基于user-user的推荐系统还是item-itmen的推荐系统,说明原因。(2分)

4.(8分)在线广告计算问题

(1)给出该图上的一个最小匹配(1分)

(2)(1)的结果说明竞争率的上界是多少?为什么?(1分)

(3)证明贪心匹配算法的竞争率为1/2(6分)

5.(8分)社会网络图挖掘问题

(1)L是n*n拉普拉斯矩阵,x是一个n*1列向量,证明对任意的x,(x)^TLx>=0(6分)

(2)L的最小特征值是多少?对应的特征向量是什么?(2分)

6.(6分)LOF异常因子检测方法

需要用到的定义和公式都在题目中给出来了

(1)如何得到一个点P的K-距离?分析时间复杂度(2分)

(2)k可达距离是对称的吗?为什么?(2分)

(3)证明:p到o的K-可达距离,至少是o的K-distance(2分)

7.(8分)XGBOOST的问题

(1)每个样本在每轮迭代中的预测值怎么获得?(2分)

(2)考Gain的意义,如何利用Gain选择划分点(2分)

(3)n条数据,m个属性,给出一次选择最佳划分点的步骤并分析时间复杂度(4分)

  • 18
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值