机器学习复习题

最新推荐文章于 2024-10-06 12:27:49 发布

本手妙手俗手

最新推荐文章于 2024-10-06 12:27:49 发布

阅读量2.1k

点赞数 47

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_74120919/article/details/138528654

版权

第一章绪论

什么是机器学习？

机器学习研究能够从经验中自动提升自身性能的计算机算法。

机器学习经历了哪几个阶段？

第一阶段：推理期

主要成就：自动定理证明系统

第二阶段：知识期

主要成就：专家系统

第三阶段：学习期

主要成就：自动数据分析技术

什么是有监督学习和无监督学习，并各举一个算法例子？

有监督学习：从有标记的样本中学习，如决策树。

无监督学习：从不含标记的样本中学习，如K均值算法。

第二章模型评估与选择

什么是经验误差和泛化误差？

经验误差(Empirical Error)：

学习器𝑓在训练集 {（𝑥𝑖 , 𝑦𝑖） , 𝑖 = 1, ⋯ , 𝑚 }上的误差

泛化误差(Generalization Error)：

学习器𝑓在“未来”样本上的误差

经验误差是不是越小越好？可能会出现过拟合

请解释欠拟合和过拟合？

欠拟合：相较于数据而言，模型参数过少或者模型结构过于简单，以至于无法捕捉到数据中的规律的现象。

过拟合： 模型过于紧密或精确地匹配特定数据集，以致于无法良好地拟合其他数据或预测未来的观察结果的现象。

合适的拟合： 模型能够恰当地拟合和捕捉到数据中规律的现象。

什么是交叉验证法(Cross Validation)？

Step 1：首先将训练集均匀分成K份。

Step 2：每次取其中一份作为验证集，剩下部分作为新的训练集，从而得到在该验证集的学习精度。

Step 3：重复K次，得到平均精度。

Step 4：选择平均精度最高的参数作为最终模型参数

什么是查准率、查全率与分类精度？

为了精确描述分类效果，需要对各个类别进行独立评价，并设立查准率和查全率指标对分类性能进行分析。

第三章线性模型

什么是线性回归？

线性回归：利用线性模型进行回归分析的方法。

概率、几率与对数几率关系？

概率(Probability)：事件发生的可能性

几率(Odds) ：事件发生和不发生的比率

对数几率(Logit) ：几率取对数

对数几率回归模型？

什么是线性判别分析(Linear Discriminant Analysis, LDA) ？

线性判别分析思想：寻找一个直线（或者低维子空间），使得同类样本的投影点尽可能接近，异类样本的投影点尽可能远离。

第四章决策树

什么是决策树？决策树的优点？

在决策树中，选择最优划分属性的准则有哪些？

第五章神经网络

什么是感知器？组成部分？

感知器学习算法优点：

➢ 简单、直观

➢ 测试速度快

感知器学习算法缺点：

➢ 只能处理线性可分的样本

➢ 训练速度较慢

多层感知器解决线性不可分问题的原理：将原始问题在隐含层映射成线性可分问题

第六章支持向量机

什么是支持向量机？

将训练样本分开的超平面很多，哪一个更好呢？

正中间的：泛化性能最好

如何构建支持向量机的目标函数？

最大间隔：寻找参数，使得间隔最大

凸二次规划问题，能用优化计算包求解，但可以有更高校的办法。

什么核函数？它的作用是什么？

若不存在一个能正确划分两类样本的超平面，怎么办？

将样本从原始空间映射到一个更高维的特征空间，使样本在这个特征空间内线性可分。

如果原始空间是有限维，那么一定存在一个高维特征空间使得样本可分。

软间隔支持向量机试图解决什么问题？

第七章贝叶斯分类器

什么是贝叶斯定理？

设𝑐为类别指标（如 𝑐 = 1表示好瓜， 𝑐 = 2表示坏瓜），𝐱 ∈ ℝ𝑑为样本的特征向量。

𝑃（ 𝑐）：先验概率(prior probability)，可用样本空间中各类样本所占的比例估计

𝑃（ 𝐱 ）：证据因子(evidence factor) ，与类别无关

𝑃（ 𝐱|𝑐 ）：似然函数 (likelihood function) ，即样本相对于类标记的类条件概率(class-conditional probability)

主要困难在于估计似然

在例1中，由于桶里的白球和黑球比例未知，随便摸出一个球，只能根据经验“猜测”其是白球的概率为𝑃（ 𝑐|𝐱） = 𝑃 （𝑐） = 1 /2 。随着有放回摸出越来越多的球，利用新增的信息可以逐步改进对类别概率的估计。

什么是朴素贝叶斯分类器？

第八章集成学习

什么是集成学习？

Ensemble methods use multiple learning algorithms to obtain better predictive performance than could be obtained from any of the constituent learning algorithms alone.

集成学习方法通过结合多种学习算法来获得比单独使用任何单独的学习算法更好的预测性能。

如何得到好的集成？

有哪些成功的集成学习方法？

Boosting方法的思想和原理是什么？

Boosting是一族可将弱学习器提升为强学习器的算法。

1. 先从初始训练集训练出一个基学习器

2. 再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器的做错的训练样本在后续受到更多关注

3. 然后基于调整后的样本分布来训练下一个基学习器

4. 如此重复进行，直至基学习器数目达到事先指定的值𝑇

5. 最终将这T个基学习器进行加权结合。

第九章聚类

什么是聚类？

聚类分析是将数据集分组，使得同一组内的数据相比与其他组的数据更相似。

Clustering analysis is the task of grouping a set of objects such that objects in the same group are more similar to each other than to those in other groups.

聚类有哪些应用？

聚类分析应用案例：商业，生物，医学，图像

市场分割：根据客户的消费记录进行聚类，进而合理地推荐。

基因分组： 根据基因的表达模式进行聚类，用于分析基因功能。

医学图像分割：将肿瘤图像中的像素进行聚类，用于自动分割出肿瘤部分。

自然图像分割：基于图像的模式识别的重要数据预处理步骤。

什么是K均值(K-Means)聚类算法？

输入：数据集 𝐗 = {𝐱1, ⋯ , 𝐱𝑛 }，参数K

初始化：随机选K个点 𝛍1, ⋯ , 𝛍𝐾 作为K个类中心

步骤一：（新聚类）将每个点赋予离其最近的类中心点

步骤二：（新中心）计算每类数据点的均值作为新的类中心重复上述步骤直到收敛，即聚类结果不变

输出：每个数据点的类别指标

K均值(K-Means)聚类算法优缺点？

K均值聚类算法优点：

➢ 简单、直观

➢ 运算速度快

K均值聚类算法缺点：

➢ 依赖类别数K的选择

➢ 对噪声数据和孤立点敏感

➢ 对初始簇中心点敏感

什么是K中心点(K-Medoids)聚类算法？

输入：数据集 𝐗 = {𝐱1, ⋯ , 𝐱𝑛 }，参数K

初始化：随机选K个样本点 𝛍1, ⋯ , 𝛍𝐾 作为K个类中心

步骤一：（新聚类）将每个点赋予离其最近的类中心点

步骤二：（新中心）选择每类数据点的代表点作为新类中心重复上述步骤直到收敛，即聚类结果不变

输出：每个数据点的类别指标

什么是层次聚类算法？

凝聚型层次聚类：自底向上

输入：数据集 𝐗 ={ 𝐱1, ⋯ , 𝐱𝑛}

步骤一：（计算距离）计算任意两个数据集之间的距离。

步骤二：（数据融合）将距离最近的两个数据集融合。重复上述步骤直到所有数据点融合成一个大集合。

输出：每个数据点的类别指标

第十章降维与度量学习

什么是降维？

降维是将数据从高维空间变换到低维空间，使得数据的低维表示能够保留原始数据的某些有意义的性质，理想情况下接近原始数据的本征维。

Dimensionality Reduction (DR) is the transformation of data from a high-dimensional space into a low-dimensional space so that the low-dimensional representation retains some meaningful properties of the original data, ideally close to its intrinsic dimension.