机器学习组考核分析

1. 当数据有缺失值的时候, 你认为处理缺失值比较合理的方法(缺失值举例:泰坦尼克号幸存者数据中 有年龄 性别 职业 是否存活 四个特征 但某些样本的职业特征为空)。

(1)均值,极值,众数,中位数填补
(2)回归决策树预测,把label作为特征也加入到特征里来
3.如果缺失值占样本比例比较小的话也可以直接将缺失值删掉

2. 请简述随机梯度下降,批梯度下降的区别和各自的优点
(1) 随机就是计算一个样本的loss之后就进行梯度下降
a) 优点:迭代速度快,可以跳出局部最小(因为震荡大)
b) 缺点:收敛速度慢(因为震荡大)
(2) 批梯度下降就是一批样本计算loss求均值后再反向传播(批用英文 batch表示)数值常常取2的n次方如2,4,8,16,32,64等…
a) 优点:收敛快,震荡小
b) 缺点:迭代速度慢

3. 线性判别分析(LDA)中,我们想要最优化的两个数值是什么(聚类算法也是以这两个数据为目标进行优化)

类内距离和类间距离

4. 类别不平衡问题会带来什么影响,如何有效处理类别不平衡的问题。

(1) 更改损失函数,对少数项的惩罚力度加大
(2) 下采样,上采样
(3) Label smoothing 标签平滑,适当调整 label,让两端的极值往中间凑,可以增加泛 化能力。

5. 什么是k折交叉验证

原理:将可用数据划分为K个分区(K取5或10),实例化K个相同的模型,将每个模型在K-1个分区作为训练集,并在剩下的一个分区当做验证集。模型的验证分数等于K个验证分数的平均值。

6. 请写出交叉熵损失函数(CrossEntropyLoss)

对单个样本,假设真实分布为y,网络输出分布为\widehat{y},总的类别数为n,则在这种情况下,交叉熵损失函数的计算方法为:
在这里插入图片描述对一个batch,单标签n分类任务的交叉熵损失函数的计算方法为:
在这里插入图片描述

  1. 我们知道信息量的多少由信息的不确定性来衡量,信息量越大,信息的不确定性越大,信息熵的值越大。信息量越少,信息的不确定性越小,信息熵的值越小。请写出信息熵的公式。注:设集合D中第k类样本所占的比例为Pk(k=1,2,3,……,m)。

在这里插入图片描述

8. 写出你知道的决策树算法

ID3算法,C4.5算法,CLS算法

9. 单变量决策树的分类边界是什么样的: A
A. 分类边界的每一段都是与坐标轴平行的
B. 分类边界的每一段都是可以弯曲的曲线
C. 分类边界的每一段都是倾斜的直线
D. 分类边界的形状可以是曲线,也可以是直线

10. 决策树模型如果过拟合,可以剪枝。线性归回过拟合可以加入正则项,那么为什么加入正则项可以有效防止过拟合
过拟合的时候,拟合函数的系数往往非常大,过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。

而正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况

11. 如何对决策树进行预剪枝(只需要回答预剪枝)
预剪枝是指在决策树在生成过程中,对每个结点在划分前进行估计,若当前结点的划分不能带来决策树泛化性能的提升,则停止划分并将当前结点标记为叶结点。

12. 决策树需要进行归一化处理吗

不需要

13. 下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素: A
A. 多项式的阶数
B. 是否通过矩阵求逆或梯度下降学习权重
C.使用常数项

14. 关于MLE(最大似然估计),下面哪一项或几项说法是正确的 1,3

1 MLE可能不存在
2 MLE总是存在
3 如果MLE存在,可能不是唯一的
4 如果MLE存在,肯定是唯一的

16.常见的激活函数有那些?写出其公式并画出函数曲线
在这里插入图片描述

17.画出三层神经网络的结构图。
在这里插入图片描述

18.如何避免局部最优。
1.使用随机梯度下降代替真正的梯度下降。
2.设置冲量。
3.不同的初始权值进行训练
19.一个完整机器学习项目的流程。
1 抽象成数学问题
2 获取数据
3 特征预处理与特征选择
4 训练模型与调优
5 模型诊断
6 模型融合/集成
7 上线运行
20.什么是前馈神经网络
前馈神经网络是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。
21.分类问题选择什么激活函数,原因是?
Sigmoid函数,它直接对分类可能性进行建模,无需事先假设数据分布,它不是仅预测出“类别”,而是得到近似概率预测,而且对率回归求解的目标函数是任意阶可导的凸函数,有很好的数学性质。
softmax函数,,又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来
22.回归问题选择什么激活函数,原因是?
机器学习任务通常分为回归和分类两种任务。回归任务是要求出具体的预测值,所以输出层不再使用激活函数进行非线性转换,或者说使用恒等函数作为激活函数,它什么都没做。
23.池化是什么,有几类池化,分别解释各个池化的过程。
pooling的结果是使得特征减少,参数减少,但pooling的目的并不仅在于此。
pooling目的是为了保持某种不变性(旋转、平移、伸缩等)
常用的有mean-pooling,max-pooling和Stochastic-pooling三种。

mean-pooling,即对邻域内特征点只求平均。
max-pooling,即对邻域内特征点取最大。
Stochastic-pooling则介于两者之间,通过对像素点按照数值大小赋予概率,再按照概率进行亚采样,在平均意义上,与mean-pooling近似,在局部意义上,则服从max-pooling的准则。
24.参数和超参数的区别是什么?
超参数就是学习率
25.有几种策略缓解BP网络过拟合?分别是?
一是“早停” : 将数据分成训练集和验证集。训练集用于计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高则停止训练,同时返回具有最小验证集误差的连接权和阈值
二是“正则化”:基本思想就是在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权和阈值的平方和。
26.为什么在机器学习中引入激活函数,例如在房价预测中加入激活函数
线性层无法解决非线性问题,如在预测房价问题中,如果不使用激活函数,则房价可能计算成负值,这也与实际不符
27用于识别猫的图像是“结构化”数据的一个例子,因为它在计算机中被表示为结构化矩阵,这句话对吗?为什么?
不对
28.评价一个模型的好坏一般用什么来评价?
查准率和查全率
ROC曲线
具体参考西瓜书
29.梯度下降法是什么?
梯度下降的基本过程就和下山的场景很类似。

首先,我们有一个可微分的函数。这个函数就代表着一座山。我们的目标就是找到这个函数的最小值,也就是山底。根据之前的场景假设,最快的下山的方式就是找到当前位置最陡峭的方向,然后沿着此方向向下走,对应到函数中,就是找到给定点的梯度 ,然后朝着梯度相反的方向,就能让函数值下降的最快!因为梯度的方向就是函数之变化最快的方向(在后面会详细解释)
所以,我们重复利用这个方法,反复求取梯度,最后就能到达局部的最小值,这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值