第一章 绪论
-
什么是机器学习?
机器学习研究能够从经验中自动提升自身性能的计算机算法。
-
机器学习经历了哪几个阶段?
第一阶段:推理期
主要成就:自动定理证明系统
第二阶段:知识期
主要成就:专家系统
第三阶段:学习期
主要成就:自动数据分析技术
-
什么是有监督学习和无监督学习,并各举一个算法例子?
有监督学习:从有标记的样本中学习,如决策树。
无监督学习:从不含标记的样本中学习,如K均值算法。
第二章 模型评估与选择
-
什么是经验误差和泛化误差?
经验误差(Empirical Error):
学习器𝑓在训练集 {(𝑥𝑖 , 𝑦𝑖) , 𝑖 = 1, ⋯ , 𝑚 }上的误差
泛化误差(Generalization Error):
学习器𝑓在“未来”样本上的误差
经验误差是不是越小越好?可能会出现过拟合
-
请解释欠拟合和过拟合?
欠拟合:相较于数据而言,模型参数过少或者模型结构过于简单, 以至于无法捕捉到数据中的规律的现象。
过拟合: 模型过于紧密或精确地匹配特定数据集,以致于无法良好 地拟合其他数据或预测未来的观察结果的现象。
合适的拟合: 模型能够恰当地拟合和捕捉到数据中规律的现象。
-
什么是交叉验证法(Cross Validation)?
Step 1:首先将训练集均匀分成K份。
Step 2:每次取其中一份作为验证集,剩下部 分作为新的训练集,从而得到在该验 证集的学习精度。
Step 3:重复K次,得到平均精度。
Step 4:选择平均精度最高的参数作为最终模 型参数
-
什么是查准率、查全率与分类精度?
为了精确描述分类效果,需要对各个类别进行独立评 价,并设立查准率和查全率指标对分类性能进行分析。
第三章 线性模型
-
什么是线性回归?
线性回归:利用线性模型进行回归分析的方法。
-
概率、几率与对数几率关系?
概率(Probability):事件发生的可能性
几率(Odds) :事件发生和不发生的比率
对数几率(Logit) :几率取对数
-
对数几率回归模型?
-
什么是线性判别分析(Linear Discriminant Analysis, LDA) ?
线性判别分析思想:寻找一个直线(或者低维子 空间),使得同类样本的投影点尽可能接近,异 类样本的投影点尽可能远离。
同类近,异类远。
第四章 决策树
-
什么是决策树?决策树的优点?
-
在决策树中,选择最优划分属性的准则有哪些?
第五章 神经网络
-
什么是感知器?组成部分?
感知器学习算法优点:
➢ 简单、直观
➢ 测试速度快
感知器学习算法缺点:
➢ 只能处理线性可分的样本
➢ 训练速度较慢
多层感知器解决线性不可分问题的原理:将原始问题在隐含层映射成线性可分问题
第六章 支持向量机
-
什么是支持向量机?
将训练样本分开的超平面很多,哪一个更好呢?
正中间的:泛化性能最好
-
如何构建支持向量机的目标函数?
最大间隔:寻找参数,使得间隔最大
凸二次规划问题,能用优化计算包求解,但可以有更高 校的办法。
-
什么核函数?它的作用是什么?
若不存在一个能正确划分两类样本的超平面,怎么办?
将样本从原始空间映射到一个更高维的特征空间,使样本 在这个特征空间内线性可分。
如果原始空间是有限维,那么一定存在一个高维特征空间 使得样本可分。
-
软间隔支持向量机试图解决什么问题?
第七章 贝叶斯分类器
-
什么是贝叶斯定理?
设𝑐为类别指标(如 𝑐 = 1表示好瓜, 𝑐 = 2表示 坏瓜),𝐱 ∈ ℝ𝑑为样本的特征向量。
𝑃( 𝑐) :先验概率(prior probability),可用样本空间中各类样本 所占的比例估计
𝑃( 𝐱 ):证据因子(evidence factor) ,与类别无关
𝑃( 𝐱|𝑐 ):似然函数 (likelihood function) ,即样本相对于类 标记的类条件概率(class-conditional probability)
主要困难在于估计似然
在例1中,由于桶里的白球和黑球比例未知,随便摸出一个球,只能 根据经验“猜测”其是白球的概率为𝑃( 𝑐|𝐱) = 𝑃 (𝑐) = 1 /2 。 随着有放回摸出越来越多的球,利用新增的信息可以逐步改进对 类别概率的估计。
-
什么是朴素贝叶斯分类器?
第八章 集成学习
-
什么是集成学习?
Ensemble methods use multiple learning algorithms to obtain better predictive performance than could be obtained from any of the constituent learning algorithms alone.
集成学习方法通过结合多种学习算法来获得比单独 使用任何单独的学习算法更好的预测性能。
-
如何得到好的集成?
-
有哪些成功的集成学习方法?
-
Boosting方法的思想和原理是什么?
Boosting是一族可将弱学习器提升为强学习器的算法。
1. 先从初始训练集训练出一个基学习器
2. 再根据基学习器的表现对训练样本分布进行调整,使得先前基 学习器的做错的训练样本在后续受到更多关注
3. 然后基于调整后的样本分布来训练下一个基学习器
4. 如此重复进行,直至基学习器数目达到事先指定的值𝑇
5. 最终将这T个基学习器进行加权结合。
第九章 聚类
-
什么是聚类?
聚类分析是将数据集分组,使得同一组内的数据相 比与其他组的数据更相似。
Clustering analysis is the task of grouping a set of objects such that objects in the same group are more similar to each other than to those in other groups.
-
聚类有哪些应用?
聚类分析应用案例:商业,生物,医学,图像
市场分割 :根据客户的消费记录进行聚类,进而合理地推荐。
基因分组: 根据基因的表达模式进行聚类,用于分析基因功能。
医学图像分割 :将肿瘤图像中的像素进行聚类,用于自动分割出肿瘤部分。
自然图像分割 :基于图像的模式识别的重要数据预处理步骤。
-
什么是K均值(K-Means)聚类算法?
输入:数据集 𝐗 = {𝐱1, ⋯ , 𝐱𝑛 },参数K
初始化:随机选K个点 𝛍1, ⋯ , 𝛍𝐾 作为K个类中心
步骤一:(新聚类)将每个点赋予离其最近的类中心点
步骤二:(新中心)计算每类数据点的均值作为新的类中心 重复上述步骤直到收敛,即聚类结果不变
输出:每个数据点的类别指标
-
K均值(K-Means)聚类算法优缺点?
K均值聚类算法优点:
➢ 简单、直观
➢ 运算速度快
K均值聚类算法缺点:
➢ 依赖类别数K的选择
➢ 对噪声数据和孤立点敏感
➢ 对初始簇中心点敏感
-
什么是K中心点(K-Medoids)聚类算法?
输入:数据集 𝐗 = {𝐱1, ⋯ , 𝐱𝑛 },参数K
初始化:随机选K个样本点 𝛍1, ⋯ , 𝛍𝐾 作为K个类中心
步骤一:(新聚类)将每个点赋予离其最近的类中心点
步骤二:(新中心)选择每类数据点的代表点作为新类中心 重复上述步骤直到收敛,即聚类结果不变
输出:每个数据点的类别指标
-
什么是层次聚类算法?
凝聚型层次聚类:自底向上
输入:数据集 𝐗 ={ 𝐱1, ⋯ , 𝐱𝑛}
步骤一:(计算距离)计算任意两个数据集之间的距离。
步骤二:(数据融合)将距离最近的两个数据集融合。 重复上述步骤直到所有数据点融合成一个大集合。
输出:每个数据点的类别指标
第十章 降维与度量学习
-
什么是降维?
降维是将数据从高维空间变换到低维空间,使得数据的低维表示 能够保留原始数据的某些有意义的性质,理想情况下接近原始数 据的本征维。
Dimensionality Reduction (DR) is the transformation of data from a high-dimensional space into a low-dimensional space so that the low-dimensional representation retains some meaningful properties of the original data, ideally close to its intrinsic dimension.
-
什么是主成分分析?
输入:样本集𝐷 = {𝐱1, ⋯ , 𝐱𝑛 }⊂ ℝ𝑑,低维空间维数𝑑′
1:对所有样本进行标准化使得均值为0,标准差为1
2:计算样本的协方差矩阵𝐗𝐗 𝑇
3:对协方差矩阵𝐗𝐗 𝑇做特征值分解
4:取最大的𝑑′个特征值所对应的特征向量𝐰1, ⋯ , 𝐰𝑑 ′
输出:投影矩阵𝐖 =[ 𝐰1, ⋯ , 𝐰𝑑']