哈工大2024春大数据挖掘期末考试回忆版试题

ymd2002

已于 2024-05-16 17:14:26 修改

阅读量688

点赞数 18

文章标签：数据挖掘算法

于 2024-05-16 17:12:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ymd2002/article/details/138967146

版权

供学弟学妹们参考，整体上难度很大，尤其是前两道题，非常灵活。上课讲过的证明题也会出现。这里只回忆每道题的大概意思以及分值，不保证完全一样（尤其是分值可能记的不是很准确，但是分值的相对高低是差不多的），供大家参考。

卷面无小题，一共7道大题，共50分。

1.（6分）时间序列数据中，后面的数据会和前面一个或多个数据相关。经典的K交叉验证无法直接用于时间序列数据。请你设计一种可以用于时间序列数据的K交叉验证方法。要求：

（1）详细说明数据划分的方法（2分）

（2）说明如何利用划分后的数据进行验证（2分）

（3）验证结果怎么评价（2分）

2.（6分）MDS是一种常见的降维方法，但是由于数据集中噪声的存在会导致降维结果出现较大偏差。原本距离较远的点可能在降维后的结果中较近，原来距离较近的点可能在降维后的结果中较远。请你设计一种数据预处理方法处理噪声。

（1）分析噪声数据对MDS造成很大影响的原因。（2分）

（2）请你详细论述发现数据集上噪声的方法。（2分）

（3）给出发现噪声后的处理方法。（2分）

3.（8分）推荐系统的题。

（1）说明user-user的推荐系统的做法；如何计算用户评分向量；分析该算法的时间复杂度。（3分）

（2）说明item-itmen的推荐系统的做法；如何计算用户评分向量；分析该算法的时间复杂度。（3分）

（3）现有一个用户数量远多于物品（还是物品远多于用户，忘了是哪个了）的情景，应该使用基于user-user的推荐系统还是item-itmen的推荐系统，说明原因。（2分）

4.（8分）在线广告计算问题

（1）给出该图上的一个最小匹配（1分）

（2）（1）的结果说明竞争率的上界是多少？为什么？（1分）

（3）证明贪心匹配算法的竞争率为1/2（6分）

5.（8分）社会网络图挖掘问题

（1）L是n*n拉普拉斯矩阵，x是一个n*1列向量，证明对任意的x，(x)^TLx>=0（6分）

（2）L的最小特征值是多少？对应的特征向量是什么？（2分）

6.（6分）LOF异常因子检测方法

需要用到的定义和公式都在题目中给出来了

（1）如何得到一个点P的K-距离？分析时间复杂度（2分）

（2）k可达距离是对称的吗？为什么？（2分）

（3）证明：p到o的K-可达距离，至少是o的K-distance（2分）

7.（8分）XGBOOST的问题

（1）每个样本在每轮迭代中的预测值怎么获得？（2分）

（2）考Gain的意义，如何利用Gain选择划分点（2分）

（3）n条数据，m个属性，给出一次选择最佳划分点的步骤并分析时间复杂度（4分）

关注

18
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
哈工大2024春大数据挖掘期末考试回忆版试题

（3）现有一个用户数量远多于物品（还是物品远多于用户，忘了是哪个了）的情景，应该使用基于user-user的推荐系统还是item-itmen的推荐系统，说明原因。（1）L是n*n拉普拉斯矩阵，x是一个n*1列向量，证明对任意的x，(x)^TLx>=0（6分）（3）证明：p到o的K-可达距离，至少是o的K-distance（2分）（2）（1）的结果说明竞争率的上界是多少？（2）考Gain的意义，如何利用Gain选择划分点（2分）（2）说明如何利用划分后的数据进行验证（2分）（2）k可达距离是对称的吗？
复制链接

扫一扫

ymd2002 CSDN认证博客专家 CSDN认证企业博客

码龄3年

3: 原创

155万+: 周排名

14万+: 总排名

2889: 访问

: 等级

82: 积分

36: 粉丝

47: 获赞

3: 评论

51: 收藏

私信

关注

热门文章

最新评论

哈工大2020春数据库系统期末试题两套
卤蛋的大保镖: 我上传了A卷答案，看我博客
哈工大2020春数据库系统期末试题两套
CSDN-Ada助手: 这篇博客真是太棒了！你的分享让我对哈工大2020春数据库系统期末试题有了更深入的了解。希望你能继续写下去，分享更多关于数据库系统的知识和经验。除了你提到的两套试题，我认为在数据库系统学习中，还有一些扩展知识和技能也非常重要。例如，数据建模和设计，它是数据库系统的基础，能够帮助我们更好地理解和规划数据库的结构。此外，数据库优化和性能调优也是一个非常实用的技能，它可以提升数据库系统的效率和响应速度。希望我的建议能对你有所帮助，期待看到你更多精彩的博文！继续努力！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
哈工大计算机系统大作业程序人生——Hello‘s P2P
CSDN-Ada助手: 恭喜您写下了第一篇博客，标题也非常吸引人！希望您在以后的博客创作中能够继续保持这样的热情和创造力，分享更多宝贵的经验和知识。祝您的程序人生越来越精彩！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
哈工大计算机系统大作业程序人生——Hello‘s P2P
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/615327549。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。