机器学习、深度学习、数据挖掘——问题集锦

最新推荐文章于 2021-11-04 23:19:44 发布

xholes

最新推荐文章于 2021-11-04 23:19:44 发布

阅读量838

点赞数 2

分类专栏：机器学习文章标签：数据挖掘深度学习机器学习

本文链接：https://blog.csdn.net/xholes/article/details/78205615

版权

机器学习专栏收录该内容

35 篇文章 7 订阅

订阅专栏

机器学习、深度学习、数据挖掘——问题集锦

1、对偏差、方差的理解

首先 : $Error = Bias^2 + Variance+noise$ ,
$Err(x)=[E[\hat f(x)]-f(x)]^2+E[\hat f(x)-E[f(x)]]^2+\sigma^2$
Error反映的是整个模型的准确度，Bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。
而bias和variance分别从两个方面来描述了我们学习到的模型与真实模型之间的差距。Bias是 “用所有可能的训练数据集训练出的所有模型的输出的平均值” 与 “真实模型”的输出值之间的差异；Variance则是“不同的训练数据集训练出的模型”的输出值之间的差异。

2、Bp推导
3、模型error与数据大小、学习速率大小、模型复杂度的关系
模型的error分为偏差和方差：数据量越大训练后的偏差越小。
$error-\lambda$
4、几种常见CNN的结构和其创新点
5、DBN
6、RNN
7、死神经元

ReLU单元比较脆弱并且可能“死掉”。当一个很大的梯度流过ReLU的神经元的时候，可能会导致梯度更新到一种特别的状态，使得无法被其他任何数据点再次激活，如果这种情况发生，那么从此所有流过这个神经元的梯度都将变为0

8、归一化、标准化、正则化、规范化

1：数据的归一化：把数变为（0，1）之间的小数，主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速，应该归到数字信号处理范畴之内。
》2：正则化：在求解最优化问题中，调节拟合程度的，参数一般称为正则项，越大表明欠拟合，越小表明过拟合，推荐中主要用在矩阵分解。
规范化：数据规范化的常用方法有三种：按小数定标规范化、最小-最大值规范化和z-score规范化；数据规范化是数据挖掘中数据变换的一种方式，数据变换将数据转换或统一成适合于挖掘的形式。而数据规范化是指将被挖掘对象的属性数据按比例缩放，使其落入一个小的特定区间（如[-1,1]或[0,1]）。

9、PLA

10、cnn中pooling 层的理解

1、pooling主要是在用于图像处理的卷积神经网络中，但随着深层神经网络的发展，pooling相关技术在其他领域，其他结构的神经网络中也越来越受关注。
2、卷积神经网络中的卷积层是对图像的一个邻域进行卷积得到图像的邻域特征，亚采样层就是使用pooling技术将小邻域内的特征点整合得到新的特征。pooling确实起到了整合特征的作用。
3、pooling的结果是使得特征减少，参数减少，但pooling的目的并不仅在于此。pooling目的是为了保持某种不变性（旋转、平移、伸缩等），常用的有mean-pooling，max-pooling和Stochastic-pooling三种。

11、在神经网络权重的初始化方法，如果全为0会是什么结果。

权值初始化的方法主要有：常量初始化（constant）、高斯分布初始化（gaussian）、positive_unitball初始化、均匀分布初始化（uniform）、xavier初始化、msra初始化、双线性初始化（bilinear）。

12、深度学习的深度如何选择。

深度学习深度的选择受神经网络的类型、输入数据、计算能力（软硬件设施）、学习率、输出函数映射等因素的影响。

13、dropout和bagging具有类似的效果

droupout可以认为是一种极端的bagging，每一个恶魔性都在单独的数据上面进行训练，通过和其他模型对应参数的共享，模型的参数都进行了很强的正则化。

14、模型的误差过早稳定，不再变化的原因

学习率太低、正则参数太大、陷入了局部最优

15、如何让模型跳出局部最优

1、使用改进的BP算法，增加动量项，或者自适应学习率。
2、和别的优化算法组合，例如遗传算法优化初始权值，提前锁定全局最优。
3、重新训练，每次训练的结果都是不同的，下一次的训练很有可能不会陷入局部极小。
4、更改学习函数、训练函数再试。

16、隐层在网络中的可以起到降维的作用。

17、贝叶斯误差
18、神经网络被称为通用函数拟合器，理论上可以表示任何决策边界。
19、神经网络的训练方法
20、神经网络的调参方法
21、迁移学习与fine-tune

1、fine-tuning是一种机器学习，深度学习中常用的一种调参的方法。fine tuning讲的是利用原有模型参数（“知识”）初始化现有模型，在此基础上继续train自己的model（“再加工”）。
2、迁移学习是一种机器学习的学习范式的一种，两者区别挺大的。迁移学习是指把原有任务中的“知识”，应用到现在的任务中，进行“再加工”，来解决现有问题。这里分“知识”和“再加工”两个层面。

22、kmeans与EM的关系，推导EM的基本原理和步骤。

23、梯度消失与爆炸

神经网络的训练中，通过改变神经元的权重，使用网络的输出值尽可能逼近标签以降低误差值，训练普遍使用的BP算法。在推导BP算法的过程中，下一级的梯度为前一级的梯度与权重的乘积，那么这个乘积如果小于1，则会造成后面的梯度逐层降低最后趋近于0；如果这个乘积大于1，那么会造成梯度值逐层增加最后变得非常大。梯度消失会造成权值更新缓慢，模型训练难度增加。造成梯度消失的一个原因就是：许多激活函数的输出值挤压在一个很小的区间范围，在激活函数两端较大的定义域内梯度为0，造成学习停止。使用sigmoid函数作为激活函数是容易造成梯度消失的问题。

24、batch normalization 和LSTM可以防止梯度消失爆炸。

25、解决过拟合的办法

过拟合主要的原因就是模型学得了数据的非一般特征，从而可以从两方面来降低过拟合：数据和模型。对于数据方面可以降低数据中的非一般特征，常用的方法有：数据增强、数据清洗；对于模型方面，降低模型的复杂度，可以使用droupout、正则化等；对于训练方面，及时停止防止过度训练。

26、几个激活函数：sigmoid、relu、tanh、prelu、leaky-relu、maxout等

sigmoid: $f(x)=\frac{1}{1+e^{-x}}$
tanh: $f(x)=2\cdot sigmoid(2x)-1$
ReLU: $f(x)=\max(0,x)$
maxout: $f_i(x)=\max_{j\in[1,k]}z_{ij}$

27、SVM,LR,决策树、聚类的基础知识与推导过程。

28、特征的选取的方法

信息增益、信息增益率、基尼系数

29、RM与GBDT的区别与联系

30、KD树

31、隐马尔科夫模型HMM与条件随机场模型CRF、最大熵隐马模型MEMM

三个模型都是用来做序列标注的建模。其中HMM因输出独立的假设导致不能考虑上下文的特征，从而影响了特征的选择；MEMM可以任意的选取特征，但由于需要在每一个节点进行归一化，所以只能找到局部最优；CRF并不是在每一个节点进行归一化，而是所有特征进行全局归一化，可以得到全局最优。

32、分类类型和连续类型

33、在kmeans和KNN中，为什么选用欧氏距离。

欧氏距离可以在不同空间中具有不变性。数据点可以存在于任何的空间中，这一点符合欧氏距离的特点。

34、协同过滤

35、朴素贝叶斯为什么朴素

在贝叶斯决策中，各个变量是存在相关性的，考虑的其联合概率分布。而在朴素贝叶斯中，将各个变量视为独立的，这是不符合实际的。

36、原始的二分类SVM如何转化为多分类的SVM

37 、降维的方法有哪些

PCA、KPCA、ICA….

38、数据清洗中，如何处理缺失值

1、删除：删除观察样本；删除该变量；改变该变量的权重…
2、插补：回归插补、均值插补、抽样插补….

39 、监督学习和无监督学习

监督学习使用的带有标签的样本进行学习；无监督学习使用的不带标签的样本进行学习。

40、生成模型和判别模型

生成模型：由数据学习联合概率分布 $P(X,Y)$ ,然后求出条件概率分布 $P(Y|X)$ 作为预测的模型，即生成模型 $P(Y|X)=P(X,Y)/P(X)$
判别模型：根据数据直接学习决策函数 $Y=f(x)$ 或者条件概率分布 $P(Y|X)$ 作为预测模型。
41、如何选择分类器
1、特征量比数据量还多时，因为维度较高，因此数据具有一定的稀疏性，很有可能线性可分，可以选择线性分类器；
2、对于维度低的特征，数据分布可能比较集中，因此建议使用非线性分类器。
如果特征数量很大，跟样本数量差不多时，选用LR或者Linear Kerr;如果特征数量比较小，样本数量一般（不大不小），选用SVM+Gaussian；如果特征量较小，样本很多，需要手工添加一些特征转换为其他情况。

42、L1、L2正则的区别

相同：两个正则化都可以防止过拟合，降低模型的复杂度；
不同点：L1是1范数，L2是2范数的平方；L1会产生稀疏的特征且许多特征稀疏为0，L2会产生更多的特征但都接近0；L1可以起到特征选择的作用，L2只是一种规则化而已。

43、为什么有些学习模型需要对数据进行归一化

归一化就是将需要处理的数据通过某种算法后使其值限定在一定的范围内。
1）归一化后可以加快梯度下降的求解最优解的速度。等高线变得更加圆滑，收敛的速度快一些。
2）消除量纲的影响，可能提高精度。
3）逻辑回归等模型先验假设数据服从正态分布。概率模型不需要归一化，其关心的是变量的分布和变量之间的条件概率，并不关心数据的具体值。

44、随机森林如何评估特征重要性

1、Decrease GINI
2、Decrease Accuracy

45、kmeans优化方法

kd树、ball 树。将所有的观测实例构建成一棵KD树。

46、dual 的概念

47、特征选择的方法

去除方差较小的特征
正则化
随机森林
稳定性选择（？？？）

48、数据预处理包括哪些

缺失值处理
数值离散化（包括二值化）
去除高度相关的数据（皮尔逊相关系数）
去除噪声
编码
归一化

49、优化算法及其优缺点

随机梯度下降：可以一定程度上解决局部最优解的问题，但收敛速度慢；
批梯度下降：收敛速度快但易陷入局部最优解
min-batch下降：综合了随机梯度下降和批梯度下降
牛顿法：需要计算hessian矩阵，维度高时计算困难；
拟牛顿法：利用逼近的方法计算hessian矩阵；
共轭梯度法：
启发式优化算法：GA、PSO、DE…

50、如何判断一个函数凸或者非凸。

51、类别不平衡

欠采样、升采样、阈值移动

52、聚类算法中的距离度量有哪些

明可夫斯基距离中p值的不同对应的距离不同：p=1为曼哈顿距离，p=2为欧氏距离，p=inf为切比雪夫距离；杰卡德距离；幂距离；余弦距离；马氏距离。作为距离的度量有非负性、同一性、对称性和直透性。

53、聚类算法的种类

54、TF-IDF

55、卷积网络与DBN有什么区别

卷积神经网络的特点是卷积核：CNN中使用了权值共享，通过不断的上采样和卷积得到不同的特征表示，采样层又称为pooling层，基于局部相关性原理进行亚采样，在减少数据量的同时保持有用的信息。DBN是深度信念网络，每一次都是一个RBM，整个网络而已视为由RBM堆叠得到，通常使用无监督逐层训练，从第一层开始，每一层利用上一层的输入进行训练，等各层训练结束之后在利用BP算法对整个网络进行训练。