数据挖掘笔试题

1.过拟合和欠拟合的原因有哪些,如何避免?
过拟合:模型过于复杂,模型参数过多,决策树中的分支过多,神经网络中的神经元过多
欠拟合:模型过于简单(模型参数过少,。。
在最小化模型误差的同时,对参数进行惩罚,也就是正则化方法,调整模型复杂度,使得模型泛化误差达到最小。决策树中对树进行剪枝,控制叶节点的个数
2.决策树中父节点和子节点之间的信息熵大小关系,原因
原因就是信息增益是大于零的,信息增益是指
这里写图片描述
信息增益大于零的解释就是,最优熵编码原理,用真实的概率分布做出的平均编码长度要小于用非真实的概率分布做出的平均编码长度。
3.哈希冲突
将一组关键词中的每个关键词映射到从0到W的一个数,这叫做散列函数,如果两个不同的关键词映射到同一个数,那么这叫做哈希冲突。
解决哈希冲突的方法:分离链接法:将映射到同一个数的关键词排成链表形式。
开放定址法:在发生冲突时,尝试选择另外的数来做映射。例如线性探测法,如果关键词a映射到了b,发生冲突,那么尝试将a映射到b+1,b+2,。。。知道解决冲突。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值