机器学习复习题

第一章 绪论  

  • 什么是机器学习?

机器学习研究能够从经验中自动提升自身性能的计算机算法。

  • 机器学习经历了哪几个阶段?

第一阶段:推理期

主要成就:自动定理证明系统

第二阶段:知识期

主要成就:专家系统

第三阶段:学习期

主要成就:自动数据分析技术

  • 什么是有监督学习和无监督学习,并各举一个算法例子?

有监督学习:有标记的样本中学习,如决策树。

无监督学习:不含标记的样本中学习,如K均值算法。

第二章 模型评估与选择

  • 什么是经验误差和泛化误差?

经验误差(Empirical Error):

学习器𝑓在训练集 {(𝑥𝑖 , 𝑦𝑖) , 𝑖 = 1, ⋯ , 𝑚 }上的误差

泛化误差(Generalization Error):

学习器𝑓在“未来”样本上的误差

经验误差是不是越小越好?可能会出现过拟合

  • 请解释欠拟合和过拟合?

 欠拟合:相较于数据而言,模型参数过少或者模型结构过于简单, 以至于无法捕捉到数据中的规律的现象。

 过拟合: 模型过于紧密或精确地匹配特定数据集,以致于无法良好 地拟合其他数据或预测未来的观察结果的现象。

合适的拟合: 模型能够恰当地拟合和捕捉到数据中规律的现象。

  • 什么是交叉验证法(Cross Validation)?

Step 1:首先将训练集均匀分成K份。

Step 2:每次取其中一份作为验证集,剩下部 分作为新的训练集,从而得到在该验 证集的学习精度。

Step 3:重复K次,得到平均精度。

Step 4:选择平均精度最高的参数作为最终模 型参数

  • 什么是查准率、查全率与分类精度?

为了精确描述分类效果,需要对各个类别进行独立评 价,并设立查准率和查全率指标对分类性能进行分析。

第三章 线性模型

  • 什么是线性回归?

线性回归:利用线性模型进行回归分析的方法。

  • 概率、几率与对数几率关系?

概率(Probability):事件发生的可能性

几率(Odds) :事件发生和不发生的比率

对数几率(Logit) :几率取对数

  • 对数几率回归模型?

  • 什么是线性判别分析(Linear Discriminant Analysis, LDA) ?

线性判别分析思想:寻找一个直线(或者低维子 空间),使得同类样本的投影点尽可能接近,异 类样本的投影点尽可能远离。

同类近,异类远。

第四章 决策树

  • 什么是决策树?决策树的优点?

  • 在决策树中,选择最优划分属性的准则有哪些?

第五章 神经网络

  • 什么是感知器?组成部分?

感知器学习算法优点:

➢ 简单、直观

➢ 测试速度快

感知器学习算法缺点:

➢ 只能处理线性可分的样本

➢ 训练速度较慢

多层感知器解决线性不可分问题的原理:将原始问题在隐含层映射成线性可分问题

第六章 支持向量机

  • 什么是支持向量机?

将训练样本分开的超平面很多,哪一个更好呢?

正中间的:泛化性能最好

  • 如何构建支持向量机的目标函数?

最大间隔:寻找参数,使得间隔最大

凸二次规划问题,能用优化计算包求解,但可以有更高 校的办法。

  • 什么核函数?它的作用是什么?

若不存在一个能正确划分两类样本的超平面,怎么办?

将样本从原始空间映射到一个更高维的特征空间,使样本 在这个特征空间内线性可分。

如果原始空间是有限维,那么一定存在一个高维特征空间 使得样本可分。

  • 软间隔支持向量机试图解决什么问题?

第七章 贝叶斯分类器

  • 什么是贝叶斯定理?

设𝑐为类别指标(如 𝑐 = 1表示好瓜, 𝑐 = 2表示 坏瓜),𝐱 ∈ ℝ𝑑为样本的特征向量。

𝑃( 𝑐) :先验概率(prior probability),可用样本空间中各类样本 所占的比例估计

𝑃( 𝐱 ):证据因子(evidence factor) ,与类别无关 

𝑃( 𝐱|𝑐 ):似然函数 (likelihood function) ,即样本相对于类 标记的类条件概率(class-conditional probability)

主要困难在于估计似然

在例1中,由于桶里的白球和黑球比例未知,随便摸出一个球,只能 根据经验“猜测”其是白球的概率为𝑃( 𝑐|𝐱) = 𝑃 (𝑐) = 1 /2 。 随着有放回摸出越来越多的球,利用新增的信息可以逐步改进对 类别概率的估计。

  • 什么是朴素贝叶斯分类器?

第八章 集成学习

  • 什么是集成学习?

 

Ensemble methods use multiple learning algorithms to obtain better predictive performance than could be obtained from any of the constituent learning algorithms alone.

集成学习方法通过结合多种学习算法来获得比单独 使用任何单独的学习算法更好的预测性能。

  • 如何得到好的集成?

  • 有哪些成功的集成学习方法?

  • Boosting方法的思想和原理是什么?

Boosting是一族可将弱学习器提升为强学习器的算法。

1. 先从初始训练集训练出一个基学习器

2. 再根据基学习器的表现对训练样本分布进行调整,使得先前基 学习器的做错的训练样本在后续受到更多关注

3. 然后基于调整后的样本分布来训练下一个基学习器

4. 如此重复进行,直至基学习器数目达到事先指定的值𝑇

5. 最终将这T个基学习器进行加权结合。

第九章 聚类

  • 什么是聚类?

聚类分析是将数据集分组,使得同一组内的数据相 比与其他组的数据更相似。

Clustering analysis is the task of grouping a set of objects such that objects in the same group are more similar to each other than to those in other groups.

  • 聚类有哪些应用?

聚类分析应用案例:商业,生物,医学,图像

市场分割 :根据客户的消费记录进行聚类,进而合理地推荐。

基因分组: 根据基因的表达模式进行聚类,用于分析基因功能。

医学图像分割 :将肿瘤图像中的像素进行聚类,用于自动分割出肿瘤部分。

自然图像分割 :基于图像的模式识别的重要数据预处理步骤。

  • 什么是K均值(K-Means)聚类算法?

输入:数据集 𝐗 = {𝐱1, ⋯ , 𝐱𝑛 },参数K

初始化:随机选K个点 𝛍1, ⋯ , 𝛍𝐾 作为K个类中心

步骤一:新聚类)将每个点赋予离其最近的类中心点

步骤二:新中心)计算每类数据点的均值作为新的类中心 重复上述步骤直到收敛,即聚类结果不变

输出:每个数据点的类别指标

  • K均值(K-Means)聚类算法优缺点?

K均值聚类算法优点:

            ➢ 简单、直观

            ➢ 运算速度快

K均值聚类算法缺点:

            ➢ 依赖类别数K的选择

            ➢ 对噪声数据和孤立点敏感

            ➢ 对初始簇中心点敏感

  • 什么是K中心点(K-Medoids)聚类算法?

输入:数据集 𝐗 = {𝐱1, ⋯ , 𝐱𝑛 },参数K

初始化:随机选K个样本点 𝛍1, ⋯ , 𝛍𝐾 作为K个类中心

步骤一:新聚类)将每个点赋予离其最近的类中心点

步骤二:新中心)选择每类数据点的代表点作为新类中心 重复上述步骤直到收敛,即聚类结果不变

输出:每个数据点的类别指标

  • 什么是层次聚类算法?

凝聚型层次聚类:自底向上

输入:数据集 𝐗 ={ 𝐱1, ⋯ , 𝐱𝑛}

步骤一:计算距离)计算任意两个数据集之间的距离。

步骤二:数据融合)将距离最近的两个数据集融合。 重复上述步骤直到所有数据点融合成一个大集合。

输出:每个数据点的类别指标

第十章 降维与度量学习

  • 什么是降维?

降维是将数据从高维空间变换到低维空间,使得数据的低维表示 能够保留原始数据的某些有意义的性质,理想情况下接近原始数 据的本征维。

Dimensionality Reduction (DR) is the transformation of data from a high-dimensional space into a low-dimensional space so that the low-dimensional representation retains some meaningful properties of the original data, ideally close to its intrinsic dimension.

  • 什么是主成分分析?

输入:样本集𝐷 = {𝐱1, ⋯ , 𝐱𝑛 }⊂ ℝ𝑑,低维空间维数𝑑′

1:对所有样本进行标准化使得均值为0,标准差为1

2:计算样本的协方差矩阵𝐗𝐗 𝑇

3:对协方差矩阵𝐗𝐗 𝑇做特征值分解

4:取最大的𝑑′个特征值所对应的特征向量𝐰1, ⋯ , 𝐰𝑑 ′

输出:投影矩阵𝐖 =[ 𝐰1, ⋯ , 𝐰𝑑']

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值