牛客《机器学习》习题收集整理

牛客习题讲解收集(以下数据均来自牛客网):
01.关于 logit 回归和 SVM 不正确的是()
A.Logit回归目标函数是最小化后验概率
B.Logit回归可以用于预测事件发生概率的大小
C.SVM目标是结构风险最小化
D.SVM可以有效避免模型过拟合
解析:答案:A
A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误 B. Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确 C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化,严格来说也是错误的。 D. SVM可以通过正则化系数控制模型的复杂度,避免过拟合。
Logit回归主要是用来计算一个事件发生的概率,即该事件发生的概率与该事件不发生的概率的比值。而最小化后验概率是朴素贝叶斯算法要做的,混淆了概念。

02.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()
A.增加训练集量
B.减少神经网络隐藏层节点数
C.删除稀疏的特征
D.SVM算法中使用高斯核/RBF核代替线性核
解析:答案:D
一般认为,增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度,但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”的倾向, svm高斯核函数比线性核函数模型更复杂,容易过拟合

径向基(RBF)核函数/高斯核函数的说明
这个核函数可以将原始空间映射到无穷维空间。对于参数 ,如果选的很大,高次特征上的权重实际上衰减得非常快,实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调整参数 ,高斯核实际上具有相当高的灵活性,也是 使用最广泛的核函数 之一。

03.机器学习中做特征选择时,可能用到的方法有?
A.卡方
B.信息增益
C.平均互信息
D.期望交叉熵

答案: A B C D
在文本分类中,首先要对数据进行特征提取,特征提取中又分为特征选择和特征抽取两大类,在特征选择算法中有互信息,文档频率,信息增益,卡方检验以及期望交叉熵。
期望交叉熵,以文本分类为例子,期望交叉熵用来度量一个词对于整体的重要程度。
在ID3决策树中,也使用信息增益作为特征选择的方法,在C4.5决策树中,使用信息增益比作为特征选择的方法,在CART中,使用基尼指数作为特征选择的方法

特征提取算法
特征提取算法分为特征选择和特征抽取两大类
特征选择
一。常采用特征选择方法。常见的六种特征选择方法:
1).DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性
2).MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值