机器学习试题

最新推荐文章于 2024-07-30 01:28:06 发布

AI_盲

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量2.9w

点赞数 38

分类专栏： machine learning 文章标签：机器学习

本文链接：https://blog.csdn.net/xwd18280820053/article/details/74306825

版权

machine learning 专栏收录该内容

19 篇文章 3 订阅

订阅专栏

1．什么是监督学习和非监督学习，请说明它们的区别，并各举一个例子。说明分类和回归问题的区别，并各举一个例子。
答：（1）有监督学习：对具有标记的训练样本进行学习来建立从样本特征到标记的映射。例如：支持向量机
无监督学习：对没有标记的训练样本进行学习，以发现训练样本集中的结构性知识。聚类就是典型的无监督学习。比如：K-means等。
（2）回归是监督学习的一种，它的标记是连续取值，有大小区别，可以计算标记间的距离。比如linear回归。
分类问题是监督学习的一种，它的标记是若干个离散取值，没有大小区别，不能计算标记间的距离。针对的是离散型结果。比如，朴素贝叶斯，SVM等。

2.什么是过学习，什么情况下可能发生过学习，采取什么措施有助于消除过学习。
答: (1) 过学习是指训练误差比较小，而测试误差大得多的情况。
(2) 模型过于复杂，参数过多；数据集相对于模型复杂度太小。
(3) 1.搜集大量的训练样本；2.用一部分样本构造验证集；3.引入正则项惩罚模型复杂度

3.给出回归（Regression）和逻辑回归（Logistic Regression）所对应的损失函数。
解：回归的损失函数：

逻辑回归的损失函数：

4.简述多层感知机（MLP）中BP算法的流程。
解：BP神经网络的流程：
对所有的输入和标签对循环（1-3）：
1.对某个输入从输入层沿网络传播到输出层；
2.从输出层开始从后向前计算每个单元的delta；
3.计算该输入对每个权值梯度的贡献
4.所有输入对梯度的贡献求和得到总梯度，根据学习率来改变原来的权值，完成了权值的一次修改。

5.有数据集D1，其中样本的特征是离散取值（可以简单地考虑取二值），数据集D2和D1基本一样，唯一的区别是D2中每个样本的某个特征被重复了100次，请问在这两个数据集上训练的朴素贝叶斯分类器是否一样，请给出具体分析。
解：
分类器是不一样的。因为朴素贝叶斯方法假设了特征间的独立性，但D2中的100个特征彼此不独立，因此不在适用，如果用了两者的结果不等。在D2上训练，被重复的特征的概率会被乘100次，放大了它的影响。

6.考虑下面样本特征为二维欧式空间点的两分类问题的训练集，分别用最近邻法和三近邻法给出测试样本点(1,1)的类别。

解：（1）计算距离
(x,y) Distance--(1,1)
(-1,1) √((-1-1)^2+(1-1)^2 )=2 -
(0,1) √((0-1)^2+(1-1)^2 )=1 +
(0,2) √((0-1)^2+(2-1)^2 )=√2 -
(1,-1) √((1-1)^2+(-1-1)^2 )=2 -
(1,0) √((1-1)^2+(0-1)^2 )=1 +
(1,2) √((1-1)^2+(2-1)^2 )=1 +
(2,2) √((2-1)^2+(2-1)^2 )=√2 -
(2,3) √((2-1)^2+(3-1)^2 )=√5 +

最近邻法: (0,1) +, (1,0) +, (1,2) + -----> +
三近邻法: (0,1) +, (1,0) +, (1,2) + -----> +

7.用两个硬币玩抛硬币的游戏，硬币1得到正面的概率为θ，硬币2得到正面的概率为2θ，你一共抛了五次，得到的结果是这样的（硬币1，正面）（硬币2，反面）（硬币2，反面）（硬币2，反面）（硬币2，正面），用极大似然法求参数θ。
解：

本题需要写出推导步骤，上述每步
8.有一个训练集，其样本为二维空间的点，正样本(1,1) 、(−1,−1)，负样本 (1,−1)、(−1, 1)。
正负样本在原空间是否线性可分？
（2）考虑一个特征变换φ(x) = [1, x1, x2, x1x2], 其中x1和x2为某样本x的两个坐标，在特征空间的预测函数为y(x) = wT∗φ(x)，利用最大间隔方法求预测函数的参数w。（可以通过观察求解）
（3）特征映射函数φ(x)对应的核函数K(x, x’ )是什么样的？
解：（1）原问题是异或问题，正负样本线性不可分；
（2）容易写出特征映射之后的样本点的值，正样本（1，1，1，1），（1，-1，-1，1），负样本（1，1，-1，-1），（1，-1，1，-1），观察易得w取（0，0，0，1）.最大间隔为2。
（3）K(x, x’ ) = <φ(x), φ(x)> = K(x,x^' )=<ϕ(x),ϕ(x^')>=x_1 x_1^'+x_2 x_2^'+〖x_1 x_2 x〗_z^' x_2^'+1。

9. 简述EM算法；论述其为什么收敛；用EM求解混合高斯模型时，在E步和M步分别做什么？
解：当存在未观测数据或缺失数据时，可以引入隐变量，这时对不完全数据直接进行极大似然求解往往比较困难。EM算法经过两个步骤交替进行计算，第一步是计算期望（E），利用对隐藏变量的现有估计值（分布），计算完全数据log似然的期望；第二步是最大化（M），最大化在E步上求得的完全数据log似然的期望来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。
在E步，把q(z)置为当前参数下所估计的隐变量的分布，从而这使得不完全数据log似然的下界在这个参数上最大化并等于不完全数据log似然；在M步，固定隐变量的分布，最大化log似然的下界来重新求参数，这等价于最大化在E步求得的隐变量分布下全数据log似然的期望。由于算法保证了每次迭代之后，似然函数都会增加，所以函数最终会收敛。
用EM算法求解GMM时，在E步，求当前参数下，每个样本由每个高斯产生的概率；在M步，根据上述概率重新计算GMM的参数。