xdu2021级学生,下面这是qf老师考前发的复习提纲,答案很多是自己写的,也有从橘皮提查的,不一定准确。有些是参考的这位学长的http://t.csdnimg.cn/F2VW6http://t.csdnimg.cn/F2VW6
Echo_429(这位学长的资料版本是2021年的,和2023相比有些变化)
复习问题原件见我的资源
【免费】西电2023秋季机器学习期末复习资料资源-CSDN文库https://download.csdn.net/download/weixin_62083045/88746202?spm=1001.2014.3001.5503考试的时候一、二题是选择、判断,概念型。
第三题是中译英、英译中,一些机器学习名词(流形学习的英文是什么?笔者当时没答上来/(ㄒoㄒ)/~~)。
第四题是简答,八选六,基本都是概念陈述,比如监督学习和无监督学习的含义和区别、线性回归的损失函数、逻辑回归的损失函数、shatter和vc维的含义、用二分类模型解决多分类模型的方法、常用的降维方法及其步骤、给俩概率图让分别用贝叶斯概率和马尔可夫随机场写出联合概率分布。第五题是计算,一共三道(好像是),一道是让用交叉验证进行线性回归(数据是四个(x,y));一道是给了真正例、真负例、假正例、假负例,让画混淆矩阵,计算查准率、查全率,最后问如何提高查全率;一道是描述反向传播的方法,设计神经网络实现异或,最后用反向传播实现一轮参数更新(不过这个没给初始值,笔者也没有写完,只把梯度下降的公式写了/(ㄒoㄒ)/~~)
上课的ppt比较多,不是很好复习(dddd\doge)。但还是要看ppt的,提纲挈领地看。可以参考林轩田课程的学习笔记(红色石头版),李宏毅和宾大的课程我没有找到好的笔记,就自己广泛搜罗、对症下药吧,重点是把知识搞懂。
Part 1 linear-models
一、理论题
1. 试述什么是机器学习。
答:让机器像人类一样,通过观察大量的数据和训练,发现事物的规律,获取某种分析问题、解决问题的能力,并用它来解决实际问题。
2、试述监督学习的概念。其与非监督学习有何不同?
答:监督学习的数据样本既有输入特征,也有输出标签。模型学习从输入数据到输出标签的映射模式,目标是在面对新的、未标记的数据时能够做出准确的预测。分类和回归是监督学习的常见任务。
非监督学习的数据样本只有输入特征,没有输出标签。模型从未标记的数据中发现模式和结构,而不是依赖于输出标签。目标是尝试找到数据的内在结构,进行聚类、降维或密度估计等任务。
3、描述线性回归模型的数学形式。线性回归模型是如何进行预测的?
4. 定义线性回归的损失函数。为什么我们选择这种损失函数?
5. 逻辑回归通常用于分类任务。解释为什么逻辑回归能够用于分类,并描述它是如
何做到的。
二、 线性回归
令线性回归模型为
y = w T x + b
1. 给定损失函数为均方误差,推导出关于权重 w 的损失函数。
2. 使用梯度下降法,推导出更新权重 w 和偏差 b 的公式。
3. 假设采用 ℓ2 正则化项,给出加入正则化后的损失函数,并推导出权重更新公式。
三、 感知器
1. 描述感知器的数学模型,并给出它的激活函数。
2. 用公式描述感知器的学习规则。当一个样本被错误分类时,权重是如何更新的?
四、 逻辑回归
令逻辑回归模型为
hw(x) = 1 /1 + exp(−wT x)
1. 推导出交叉熵损失函数。
2. 使用梯度下降法,推导出更新权重 w 的公式。
3. 当引入 ℓ1 正则化项时,写出正则化后的损失函数。
Part 2 neural-networks
一、理论题
1. 描述反向传播算法的主要步骤。
2、解释为什么需要反向传播算法,并如何使用它来更新神经网络的权重和偏置?
为什么:反向传播的目标是最小化损失函数,即模型在训练数据上的预测误差。通过计算损失函数对网络参数的梯度,然后利用梯度下降或其他优化算法来更新模型的权重和偏置,以最小化模型对训练数据的误差。 这个过程是迭代进行的,通过多次使用反向传播和参数更新,逐渐调整模型的参数,使其能够更好地拟合训练数据。
如何: 反向传播利用链式法则来计算梯度。在一个神经网络中,每一层都有权重和偏置,通过链式法则可以计算损失函数对每个参数的影响,从而逐层向后传播误差。一旦梯度计算完成,可以使用梯度下降或其他优化算法来更新网络的权重和偏置。通常的更新规则是 new_parameter=old_parameter−η×gradient,其中 η 是学习率,gradient是梯度。
3、何为链式法则?为何它在反向传播中是关键?
通过逐层应用链式法则,可以计算整个网络中每个参数的梯度。这些梯度用于梯度下降等优化算法,通过调整参数来最小化损失函数,以逐渐提高对输入与输出之间复杂映射的拟合能力。
4、试分析神经网络前向传播与反向传播算法的计算复杂度,并对比反向传播算法与
数值差分求网络梯度方法在计算效率上的差别。
5. 能否将隐藏层的激活函数用线性函数替换,为什么?
6. 使用神经网络的动机是什么?
7. 试手工构造一个可以求解“异或”分类问题的神经网络。
注:sigmoid求导
四、 翻译题:请给出以下术语的英文翻译
1. 神经网络
2. 过拟合
3. 正则化
4. 随机梯度下降
5. 逻辑回归
6. 线性回归
7. 广义线性模型
8. 均方误差
9. 平均绝对误差
- Neural network
- Overfitting
- Regularization
- Stochastic gradient descent
- Logistic regression
- Linear regression
- Generalized linear model
- Mean squared error
- Mean absolute error
Part 3 others
一、 数据降维与特征选择
1. 使用数据降维算法的目的是什么?
- 数据可视化
- 预测的可解释性
- 加快算法的收敛,降低计算复杂度
- 数据可能占据一个比当前维数更低的流形,减少冗余信息带来的误差
- 缓解维数灾难,防止数据样本稀疏,模型过拟合
2. 主成分分析与线性鉴别分析有什么区别?
3. 试分别从两个不同视角给出主成分分析的目标函数及求解方法
5.试给出线性鉴别分析的目标函数与优化求解方法。
6. 常用的特征选择有哪些算法,分别有什么特点?
7. 滤波式与封装式特征选择方法的原理分别是什么?
8. 什么是流形学习?解释 LLE 的原理。
三、 概率图模型
1. 什么是概率图模型?
答:概率图模型是一类用图来表达变量相关关系的概率模型。一般而言:图中的一个结点表示一个或一组随机变量,结点之间的边则表示变量间的概率相关关系,从而形成了一张“变量关系图”。
2. 贝叶斯网络和马尔可夫随机场之间有什么区别?
- 图的方向性
- **贝叶斯网络:** 使用有向无环图表示变量之间的依赖关系。有向边表示直接的因果关系,节点的条件概率分布表示给定其父节点的情况下该节点的分布。
- **马尔可夫随机场:** 使用无向图表示变量之间的关系。无向图中的边表示变量之间的关联性,但不指定因果关系。
- 条件独立性
- **贝叶斯网络:** 有向边表示条件依赖关系,因此贝叶斯网络中的条件独立性是直接由图的结构来表示的。即,一个节点在给定其父节点的情况下与其他节点条件独立。
- **马尔可夫随机场:** 通过局部马尔可夫性,表示在给定一组邻居节点的情况下,节点与其他节点条件独立。无向图的边表示变量之间的关系,但不显式指定条件独立性。
- 概率分布表示
- **贝叶斯网络:** 使用联合概率分布的乘积形式,其中每个节点的条件概率分布乘积给定其父节点的条件概率分布。
- **马尔可夫随机场:** 使用势函数的乘积形式,其中每个因子对应于无向图中的一个子图。全局概率分布由所有因子的乘积和规范化得到。
- 应用领域
- **贝叶斯网络:** 常用于推断、诊断、因果关系建模等,特别适用于处理有向因果关系的问题。
- **马尔可夫随机场:** 常用于图像分割、能量最小化、模式识别等,适用于建模全局相关性和联合分布的问题。
3. 条件独立性在概率图模型中扮演什么角色?
- 模型简化:表达和利用条件独立性关系可以帮助简化概率图模型的结构。通过使用图的拓扑结构,可以快速识别哪些变量在给定其他变量的条件下是独立的,从而减少了需要建模和存储的参数数量。
- 推断:条件独立性是概率图模型进行推断的关键。当某些变量已知或观测到时,通过利用条件独立性关系,可以更有效地计算其他未知变量的后验分布,即推断。在贝叶斯网络中,有向图的结构表示了因果关系。通过条件独立性关系,可以推断在给定某些因果关系的条件下,其他变量之间是否存在依赖关系。
- 解释模型:条件独立性关系提供了对模型的直观解释。图结构清晰地显示了变量之间的关系,使得模型的结构更容易理解和解释。
- 特征选择: 在特定应用中,条件独立性关系有助于确定哪些特征对于模型的预测是重要的,从而可以进行特征选择。
4. 什么是贝叶斯网?给定贝叶斯网络结构后,如何计算其联合概率?
贝叶斯网络(Bayesian Network,BN):
贝叶斯网络是一种概率图模型,它通过有向无环图来表示变量之间的条件依赖关系。每个节点表示一个随机变量,有向边表示条件依赖关系。节点的条件概率分布描述了给定其父节点的情况下节点的概率分布。
如何计算?
计算贝叶斯网络的联合概率分布涉及到使用链式法则以及贝叶斯规则。贝叶斯网络的联合概率分布表示为各个节点的条件概率的乘积。以下是一般步骤:
假设有一个贝叶斯网络,包含随机变量 X1,X2,X3,...Xk,其结构由有向无环图表示。
- 写出联合概率的链式法则:
- 使用贝叶斯规则进行条件概率的替代:
- 将贝叶斯网络中的条件概率替代到链式法则中:
- 简化表达式:
通过对概率项的约简,得到最终的联合概率表达式。 - 考虑边缘化(如果需要):
如果只需要计算部分变量的联合概率,可以使用边缘化(Marginalization)来从完整的联合概率中去除不关心的变量。例如,
5. 解释马尔可夫随机场中的“团”(簇)概念并给出一个例子
对于图中节点的一个子集,若其中任意两结点间都有边相连,则该结点子集为一个团。若在一个团中加入另外任何一个结点都不再形成团,则称该团为极大团。
6. 马尔可夫随机场如何表示其变量的联合概率分布?
(来自西瓜书,直接看西瓜书相应部分就好)
7.试给出图 1 中两个概率图模型的联合概率分布。使用 xA, . . . , xE 表示图 1(b) 中
的随机变量。
7.试给出图 1 中两个概率图模型的联合概率分布。使用 xA, . . . , xE 表示图 1(b) 中
的随机变量。