哈尔滨工业大学2022年数据挖掘期末考试

  1. 给出三种特征构造的方式(可以从数值型,类别型,时间序列和文本的角度出发)(6分)

  2. 线下评价(均方根误差,召回率,精确度,平均绝对误差),线上评价(转化成交率=成交的总笔数/进店顾客总数),假设你自己设计了一个电影推荐系统,请从以上任选两个评价指标(或者自己构造两个新的)来评价你的推荐系统(6分)

  3. 社会网络问题。(6分)
    在这里插入图片描述

  4. 处理不平衡数据问题(10分)
    1)不平衡数据会造成什么影响(从召回率和精确度的角度分析)?
    2)怎样解决不平衡数据问题?

  5. GBDT问题(6分)
    1)GBDT的特点是什么?
    2)GBDT的节点是怎么选取某个特征的某个值的?
    3)在一轮训练完成后,如何确定各个特征的重要程度?

  6. 当数据较多时,查询获取近邻信息(最近邻,K近邻)需要耗费很长时间。请设计一种方法加快近邻信息的获取(6分)

  7. 请自行设计一种自动调参的方法(10分)

  8. 自动化机器学习会在训练结束后展示很多模型,综合定量分析,请选取一个最佳的模型(10分)

  • 4
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值