供学弟学妹们参考,整体上难度很大,尤其是前两道题,非常灵活。上课讲过的证明题也会出现。这里只回忆每道题的大概意思以及分值,不保证完全一样(尤其是分值可能记的不是很准确,但是分值的相对高低是差不多的),供大家参考。
卷面无小题,一共7道大题,共50分。
1.(6分)时间序列数据中,后面的数据会和前面一个或多个数据相关。经典的K交叉验证无法直接用于时间序列数据。请你设计一种可以用于时间序列数据的K交叉验证方法。要求:
(1)详细说明数据划分的方法(2分)
(2)说明如何利用划分后的数据进行验证(2分)
(3)验证结果怎么评价(2分)
2.(6分)MDS是一种常见的降维方法,但是由于数据集中噪声的存在会导致降维结果出现较大偏差。原本距离较远的点可能在降维后的结果中较近,原来距离较近的点可能在降维后的结果中较远。请你设计一种数据预处理方法处理噪声。
(1)分析噪声数据对MDS造成很大影响的原因。(2分)
(2)请你详细论述发现数据集上噪声的方法。(2分)
(3)给出发现噪声后的处理方法。(2分)
3.(8分)推荐系统的题。
(1)说明user-user的推荐系统的做法;如何计算用户评分向量;分析该算法的时间复杂度。(3分)
(2)说明item-itmen的推荐系统的做法;如何计算用户评分向量;分析该算法的时间复杂度。(3分)
(3)现有一个用户数量远多于物品(还是物品远多于用户,忘了是哪个了)的情景,应该使用基于user-user的推荐系统还是item-itmen的推荐系统,说明原因。(2分)
4.(8分)在线广告计算问题
(1)给出该图上的一个最小匹配(1分)
(2)(1)的结果说明竞争率的上界是多少?为什么?(1分)
(3)证明贪心匹配算法的竞争率为1/2(6分)
5.(8分)社会网络图挖掘问题
(1)L是n*n拉普拉斯矩阵,x是一个n*1列向量,证明对任意的x,(x)^TLx>=0(6分)
(2)L的最小特征值是多少?对应的特征向量是什么?(2分)
6.(6分)LOF异常因子检测方法
需要用到的定义和公式都在题目中给出来了
(1)如何得到一个点P的K-距离?分析时间复杂度(2分)
(2)k可达距离是对称的吗?为什么?(2分)
(3)证明:p到o的K-可达距离,至少是o的K-distance(2分)
7.(8分)XGBOOST的问题
(1)每个样本在每轮迭代中的预测值怎么获得?(2分)
(2)考Gain的意义,如何利用Gain选择划分点(2分)
(3)n条数据,m个属性,给出一次选择最佳划分点的步骤并分析时间复杂度(4分)