牛客《机器学习》习题收集整理

最新推荐文章于 2024-04-27 09:00:22 发布

__矮油不错哟

最新推荐文章于 2024-04-27 09:00:22 发布

阅读量2.3k

点赞数 1

分类专栏：《剑指offer》

本文链接：https://blog.csdn.net/zhenaoxi1077/article/details/80048426

版权

牛客习题讲解收集（以下数据均来自牛客网）：
01.关于 logit 回归和 SVM 不正确的是（）
A.Logit回归目标函数是最小化后验概率
B.Logit回归可以用于预测事件发生概率的大小
C.SVM目标是结构风险最小化
D.SVM可以有效避免模型过拟合
解析：答案：A
A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法，而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数，并没有最大化后验概率，更谈不上最小化后验概率。A错误 B. Logit回归的输出就是样本属于正类别的几率，可以计算出概率，正确 C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，应该属于结构风险最小化，严格来说也是错误的。 D. SVM可以通过正则化系数控制模型的复杂度，避免过拟合。
Logit回归主要是用来计算一个事件发生的概率，即该事件发生的概率与该事件不发生的概率的比值。而最小化后验概率是朴素贝叶斯算法要做的，混淆了概念。

02.在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题（）
A.增加训练集量
B.减少神经网络隐藏层节点数
C.删除稀疏的特征
D.SVM算法中使用高斯核/RBF核代替线性核
解析：答案：D
一般认为，增加隐层数可以降低网络误差（也有文献认为不一定能有效降低），提高精度，但也使网络复杂化，从而增加了网络的训练时间和出现“过拟合”的倾向， svm高斯核函数比线性核函数模型更复杂，容易过拟合

径向基(RBF)核函数/高斯核函数的说明
这个核函数可以将原始空间映射到无穷维空间。对于参数，如果选的很大，高次特征上的权重实际上衰减得非常快，实际上（数值上近似一下）相当于一个低维的子空间；反过来，如果选得很小，则可以将任意的数据映射为线性可分——当然，这并不一定是好事，因为随之而来的可能是非常严重的过拟合问题。不过，总的来说，通过调整参数，高斯核实际上具有相当高的灵活性，也是使用最广泛的核函数之一。

03.机器学习中做特征选择时，可能用到的方法有？
A.卡方
B.信息增益
C.平均互信息
D.期望交叉熵

答案: A B C D
在文本分类中，首先要对数据进行特征提取，特征提取中又分为特征选择和特征抽取两大类，在特征选择算法中有互信息，文档频率，信息增益，卡方检验以及期望交叉熵。
期望交叉熵，以文本分类为例子，期望交叉熵用来度量一个词对于整体的重要程度。
在ID3决策树中，也使用信息增益作为特征选择的方法，在C4.5决策树中，使用信息增益比作为特征选择的方法，在CART中，使用基尼指数作为特征选择的方法

特征提取算法
特征提取算法分为特征选择和特征抽取两大类
特征选择
一。常采用特征选择方法。常见的六种特征选择方法：
1).DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性
2).MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低，那么互信息得分就会很大，因此互信息法倾向”低频”的特征词。相对的词频很高的词，得分就会变低，如果这词携带了很高的信息量，互信息法

最低0.47元/天解锁文章

__矮油不错哟

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
牛客《机器学习》习题收集整理

牛客习题讲解收集（以下数据均来自牛客网）： 01.关于 logit 回归和 SVM 不正确的是（） A.Logit回归目标函数是最小化后验概率 B.Logit回归可以用于预测事件发生概率的大小 C.SVM目标是结构风险最小化 D.SVM可以有效避免模型过拟合解析：答案：A A. Logit回归本质上是一种根据样本对权值进行极大似然估...
复制链接

扫一扫