最近在面试过程中,发现对于AI算法岗位,基本的机器学习、统计学习理论的考察是非常重要的,因此决定先过一遍《统计学习方法》,为了回顾学过的知识,以问答的形式建此博客,整理学习中的思考,也希望同道中人一起讨论学习
统计学习概论
1、在研究统计学习方法的过程中需要哪些步骤?
- 得到一个有限的训练数据集;
- 确定所有可能的模型假设空间(换句话说就是找几个你觉得比较合适的模型);
- 确定学习策略(如损失函数、激励方法等,以便于从众多模型中选择一个比较适合的模型);
- 通过学习方法得到最优的模型;
- 利用学习的最优模型对新数据进行预测与分析;
2、统计学习方法主要包括哪几类?
- 监督学习
- 无监督学习
- 强化学习
- 半监督学习
- 主动学习
3、分类问题和回归问题的区别是什么?
- 分类问题:输出变量为离散的;
- 回归问题:输入变量与输出变量都是连续的;
连续:可以理解为在空间中取值是线(面);离散:在空间中取值是点
4、监督学习与无监督学习的区别是什么?
- 监督学习的样本都是有标注的;无监督学习的样本是没有标注的。
5、什么是强化学习?
- 强化学习一般指系统与环境的连续互动中学习最优行为策略(感觉就是让模型自己去学习最优策略,人为的干预相对少一点,感觉这和GAN模型就一样了,书中将马尔科夫决策过程与强化学习结合在一起,可能需要后期学习完马尔科夫才能有更深的理解了)
6、什么是主动学习?
- 主动学习指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型,目的是找出对学习最优帮助的实例让老师标注,减轻标注代价(其实这里的陈述和GAN也是有相同之处的)
7、概率模型和非概率模型又是什么?
- 概率模型:其分布形式多为 P ( y ∣ x ) P(y|x) P(y∣x),无监督学习中取 P ( x ∣ z ) P(x|z) P(x∣z)或 P ( z ∣ x ) P(z|x) P(z∣x),监督学习中,多为生成模型,主要包括:决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型等。
- 非概率模型:其分布形式为 y = f ( x ) y=f(x) y=f(x),无监督学习中函数形式为 z = f ( x ) z=f(x) z=f(x),监督学习中常是判别模型,主要包括:感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析、神经网络等。
8、线性模型与非线性模型都包括哪些?
- 线性模型:感知机、线性支持向量机、k近邻、k均值、潜在语义分析等;
- 非线性模型:核函数支持向量机、AdaBoost、神经网络等;
9、常见的损失函数都有哪些?
损失函数一般用来度量模型预测错误的程度,主要包括如下几种:
- 0-1损失函数: L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(X))=\left\{\begin{matrix} 1, Y\neq f(X) \\ 0, Y=f(X) \end{matrix}\right. L(Y,f(X))={1,Y=f(X)0,Y=f(X)
- 平方随时函数: L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^{2} L(Y,f(X))=(Y−f(X))2
- 绝对损失函数: L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X))=|Y-f(X)| L(Y,f(X))=∣Y−f(X)∣
- 对数(似然)损失函数(说实话,我一直没明白这个”似然“是什么意思?下面有一段来自wiki的解释): L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X))=-logP(Y|X) L(Y,P(Y∣X))=−logP(Y∣X)
- 损失函数越小,模型就越好。
”似然“与”概率“:
- 似然性:用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值。
- 概率:用于在已知一些参数的情况下,预测接下来在观测上所得到的结果。
10、什么是过拟合?
- 过拟合一般指在选取模型的时候,使用了过多的参数,导致模型对于已知数据的预测效果非常好,但缺少泛化能力,对未知数据的预测能力很差。(一个好的模型就像一个会学习的同学一样,他绝对不是单纯的做一道题,而是可以通过知识点的学习而解决多道问题)
11、监督学习常见的应用场景有哪些
- 分类问题(Classification):输出变量
Y
Y
Y取有限个离散值
- 二分类
- 多分类
- 标注问题(Tagging):常用方法有隐马尔可夫模型、条件随机场,标注问题在信息抽取、自然语言处理等领域被广泛应用。
- 回归问题(Regression):常用于预测输入与输出之间的关系,类似于函数的拟合过程。回归问题常被用来解决多领域的问题,比如:市场趋势预测、产品质量管理、客户满意度调差、投资风险分析等。
- 按照输入变量的个数
- 一元回归
- 多元回归
- 按照模型的类型
- 线性回归
- 非线性回归
- 按照输入变量的个数
12、分类问题中常见的评价指标有哪些?
TP—将正类预测为正类的数量
TN—将正类预测为负类的数量
FP—将负类预测为正类的数量
TN—将负类预测为负类的数量
- 精确率(Precision): P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
- 召回率(Recall): R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
- F 1 F_1 F1: 精确率和召回率的调和均值: F 1 = 2 P R P + R F_1=\frac{2PR}{P+R} F1=P+R2PR
13、常见的选择模型的方法有哪些?
模型选择的方法:
- 正则化
- 交叉验证
14、说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法的三要素?
15、通过经验风险最小化推导极大似然估计?
推荐阅读:
- 周志华. 机器学习. 北京: 清华大学出版社,2017.