机器学习面试总结

2020.10.23

一、除了主成分分析,还使用哪些降维方法。

高维情况下出现的数据样本稀疏、距离计算困难的问题,也叫”维数灾难“,缓解这种情况的一个重要途径是降维,”维数约简“,还有一种途径就是特征选择
线性降维包括:主成分分析(PCA),奇异值分解(SVD),因子分析
以下都是非线性降维
现实任务中,直接使用线性降维方法对三维空间中的样本点进行降维,将丢失原本的低维结构。
KPCA(核主成分分析),MDS(多维缩放),lsomap(等度量/距离映射),LLE(局部线性嵌入)

1、多维缩放(Multiple Dimensional Scalling,MDS)

原始空间中样本之间的距离在低维空间中得以保持。
思路:X为样本点,距离矩阵为D,D中的元素d-ij是样本点Xi到Xj之间的距离。
原来是:X->B->D求解点之间的距离矩阵;现在是通过D->B->X’,通过已知的高维度距离,找到一个矩阵B,进一步将高维距离映射到低维,得到一个低维样本集。
算法描述:

1、输入:距离矩阵D,原来问题的维度为d,目标维度为d’(d’<d)
2、求解B矩阵
3、接下来就是线性代数,对B做特征值分解——特征值构成的对角矩阵A和特征向量矩阵V。
4、取d’<<d个数目的最大特征值构成对角矩阵A,A就作为相应的特征向量矩阵。
5、输出低维坐标:V*A,再开根号,每一行就是低维坐标。

2、核化线性降维,也就是非线性(如KPCA,核主成分分析)

是一种非线性映射的方法,核主成分分析是对PCA的一种推广。KPCA主要利用了核函数,即对于当前非线性不可分数据,将其映射至更高维的空间至线性可分,再进行降维,而其中利用核函数可求得内积,进而得到样本在特征向量上的投影。

3、 流行学习

当维数被降至二维或三维,数据可以可视化展示,所以流行学习也被用于可视化

1)等距离映射(Isomap)

认为直接在高维空间计算直线距离有误导性,低维嵌入流行上两点的距离是”测地线“距离,所以要关注曲面距离的映射。先做了一个k近邻,再多维缩放。

1、对每个样本xi点计算k近邻点,将xi与k近邻点之间的距离设置为欧氏距离,
与其他点之间的距离设为无穷大。
2、调用最短路径法计算任意两个样本点之间的距离d(xi,xj)
3、将d(xi,xj)作为MDS多维缩放算法的输入,输出结果
4、样本集在低维空间的投影就是上述输出。

其中,近邻图的构建有两种做法:1是指定近邻点的个数,用欧氏距离选择最近的k个点;
2是指定距离的阈值,距离小于阈值则为近邻点。(要控制好近邻距离,防止断路和短路)
Isomap只对训练样本进行了低维映射,
对于新的测试样本,解决方案是,训练一个回归学习器,
将训练样本的高维空间坐标作为输入,低维空间坐标作为输出,来预测新样本的低维坐标。
2)局部线性嵌入(LLE)
与等距离映射不同,局部线性嵌入(LLE)试图保持近邻样本之间的线性关系。
认为每个数据点都可以由近邻点的线性加权组合得到。

算法步骤:

1、计算每个样本的k近邻点
2、由近邻点计算该样本点的局部重建权值矩阵(也就是线性加权系数)
3、由局部重建矩阵和近邻点计算该样本输出值

这里补充一个度量学习:西瓜书p237,
学习出一个合适的距离度量,也是达到降维的目的。和上面的方法的区别就是,上述方法是给定一个固定的距离映射公式,而度量学习是将马氏距离作为度量矩阵,对度量矩阵进行学习,可以用来提高分类器的性能。

二、普通线性回归的优缺点,还知道哪些回归模型。

优点:
1、建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快
2、可解释性强,可以根据系数给出每个变量的理解和解释
3、对异常值敏感
缺点:
不能很好地拟合非线性数据,所以需要先判断变量之间是否是线性关系。

1、其他回归模型:多项式拟合、岭回归、Lasso回归、弹性网络回归(综合平衡L1,L2)。

岭回归:
去除共线性特征,解决过拟合问题
损失函数在多元线性回归的基础上加入L2正则化项

多元线性回归损失函数
多元线性回归损失函数
岭回归
岭(ridge)回归
lasso回归
Lasso回归

2、回归模型:逻辑回归
假设样本服从二项分布(0-1),求该分布的似然函数,然后对数求极值的方法。

回归损失函数:MLE(最大似然损失函数)

对数损失函数

分类损失函数:交叉熵(用来分类:sigmoid激活函数,用来二分类;
Softmax用来多分类)

三、用MSE均方差作为损失函数的缺点,用什么作为损失函数比较好。

LR用MSE作为损失函数的缺点:

1、MSE会有梯度消失的现象
2、MSE的导数非凸函数,求解最优解困难

用MLE,极大似然(联合概率分布),不用最小二乘。凸函数
这就是所谓的凸函数(国内高等数学叫凹函数,和学术上的刚好相反)。
这样的函数,在使用梯度下降或者牛顿法的时候,只要样本充分,就一定会指向最低点的梯度,不会陷入局部最优。

四、特征选择方法

为什么进行特征选择:两个原因
1、和特征降维一样,解决维数灾难问题,减少过拟合
2、去除不相关的特征(冗余特征)降低学习任务的难度

机器学习特征选择方法

1、过滤法

方差选择法
相关系数法
卡方检验
互信息法

2、包装法
递归特征消除(RFE)
3、嵌入法

基于惩罚项的特征选择:
L2惩罚项,岭回归那意思,去掉重复的共线性
基于树模型的特征选择:
随机森林(平均不纯度减少、平均精确率减少)
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值