希望用这样的方式能够方便自己日后一眼就能记起这些概念,不定期更新补充
期望风险
理论上模型 f ( x ) f(x) f(x)在输入输出 ( X , Y ) (X,Y) (X,Y)是随机变量,并遵循联合分布 P ( X , Y ) P(X,Y) P(X,Y)条件下,关于联合分布平均意义下的损失(期望损失)。实际上,这个联合分布是未知的,也正是因为不知联合分布,才需要学习,因此期望风险是理论上最小化风险的计算方法,是实际情况下需要去逼近的。 (具体参考:李航《统计学习方法》)
期望风险是知道特征与类标之间的关系时,模型的预测值与真实值损失函数的期望值。但特征与类标之间的关系是不知道的,我们才需要用模型去学习,因此期望风险是理想化的情况
经验风险
f
(
x
)
f(x)
f(x)模型关于训练数据集的平均损失,记作
R
e
m
p
R_{emp}
Remp:
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))
Remp(f)=N1i=1∑NL(yi,f(xi))
根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。但在现实中训练样本数目有限,因此逼近效果并不理想,因此,需要对经验风险进行一定的矫正。
矫正方法包括:
经验风险最小化 — 该策略认为,经验风险最小的模型是最优的模型。实践证明,当样本容量最够大时,经验风险最小化能保证有很好的效果,例如,极大似然估计。但当样本容量很小的时候,经验风险最小化的策略下容易产生“过拟合”(训练所得的模型复杂度比真正的模型复杂度高)现象;
结构化风险最小化 — 为了防止过拟合而提出,结构化风险最小化等价于正则化(在经验风险上加上表示模型复杂度的正则化项或惩罚项)
把模型的预测值与真实值损失函数下求得的值求平均
结构风险
R
s
r
m
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)
Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
其中,
J
(
f
)
J(f)
J(f)为模型的复杂度,是定义在假设空间上的范数。模型越复杂,复杂度
J
(
f
)
J(f)
J(f)越大,即复杂度表示了对复杂模型的惩罚。如朴素贝叶斯中最大后验概率估计就是结果风险最小化的例子。 (具体参考:通俗理解朴素贝叶斯 ; 朴素贝叶斯算法与贝叶斯估计)
仅最小化经验风险可能产生过拟合,在经验风险后添加一个能反应模型复杂度的惩罚项,则够成结构化风险。
置信区间(范围)
如小A同学某次考试成绩排名第2名,这并不保证下次测试时,小A同学无法考第1名或一定能考上第2名。因为有限次的统计无法将所有可能的因素都包含,所以为了更客观地描述统计实验的结果,总会在结果上加上一个误差范围,这个误差范围就是置信区间。
置信水平
表示结果有多大概率取到置信区间内的值 (具体参考:白话置信区间与置信水平)
中心极限定理
任何一个样本的 平均值将会约等于其所在总体平均值,并且样本均值的集合呈现正态分布,是用样本反应总体的依据所在 (具体参考:猴子的回答)
大数定律
如果统计数据足够大,那么事物出现的频率就无限接近其期望(期望指的是所有不同结果的和,其中每个结果都是由各自的概率和收益相乘而来),因此长期赌博,必亏 (具体参考:猴子的回答)
范数
根据在不同假设空间的度量方式,有:
L
0
L_{0}
L0 范数:x 到零点的汉明距离
L
1
L_{1}
L1 范数:x 到零点的曼哈顿距离
L
2
L_{2}
L2 范数:x 到零点的欧氏距离
…
L
n
L_{n}
Ln 范数:x 到零点的 n 阶闵氏距离
L
∞
L_{\infty}
L∞范数:x 到零点的切比雪夫距离
结构风险的正则化项(惩罚项)中 J ( f ) J(f) J(f)一般选择把 L 0 , L 1 , L 2 L_{0}, L_{1}, L_{2} L0,L1,L2范数,乘以一个系数 λ \lambda λ,与经验风险项相加(如上文 R s r m ( f ) R_{srm}(f) Rsrm(f))
首先,过拟合产生,是因为对模型对训练数据集的过度学习,将噪点的特性也完全拟合,因此在测试集上性能较差。正则项的目的是弱化无关参数对整个模型性能的影响,让模型曲线在拟合数据特点前提下尽量光滑
L 0 L_{0} L0范数:很严格的参数限制策略,对模型参数不等于0的最大个数进行控制,以达到限制模型能力的目的(因为过于严苛,实践中并不友好)
L
1
L_{1}
L1范数:
L
2
L_{2}
L2范数:
(具体参考:知乎)
线性回归与逻辑回归
线性回归适用于处理回归问题,逻辑回归是在线性回归基础上利用一个如Logistic函数(如Sigmoid函数)进行映射,从而将输出压缩到0-1之间(Sigmoid函数),实现分类问题的处理。
参考:线性回归与逻辑回归
最小二乘估计
核心:权衡
找一个(组)估计值,使得实际值与估计值之差的平方和最小,称为最小二乘。拟合出距离所有实际数据点的距离的平方和最小的函数,即得到一组参数。(假设函数是一次的,拟合出直线,假设函数是二次的,拟合出曲线等)
参考:马同学;以及知乎上大神们的回答:最大似然估计和最小二乘法怎么理解?
最大似然估计(MLE)
核心:观测数据的出现概率,隐含了整体数据的概率分布。
即,利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。把我们观察到每个样本出现的概率乘到一起,然后试图调整参数以最大化这个概率的乘积。找到一组参数,使得观测到的数据概率最大。
假定数据的真实label
Y
Y
Y 是模型预测的输出值
Y
^
=
f
θ
(
x
i
)
\hat Y =f_{\theta}(x_i)
Y^=fθ(xi) 叠加一个高斯噪声
ε
\varepsilon
ε得到的,即
Y
=
f
θ
(
x
i
)
+
ε
Y = f_{\theta}(x_i) + \varepsilon
Y=fθ(xi)+ε,
ε
\varepsilon
ε服从
N
(
0
,
σ
2
)
N(0, \sigma^2)
N(0,σ2)。那么,模型参数
θ
\theta
θ的最大似然估计和最小乘估计是等价的,证明如下:
从另一个角度理解两者关系:
最小二乘法想要找到最小化数据点和回归线之间的距离平方和的直线。最大似然估计想要最大化数据的全概率。如果数据符合高斯分布,那么当数据点接近均值时,我们找到了最大概率。由于高斯分布是对称的,因此这等价于最小化数据点和均值之间的距离。
参考:
最大似然估计和最小二乘法怎么理解? - Kord的回答 - 知乎
最大似然估计和最小二乘法怎么理解? - 论智的回答 - 知乎
卡方检验
https://www.jianshu.com/p/807b2c2bfd9b
概率分布、概率密度、概率质量函数
https://www.cnblogs.com/dengdan890730/p/6169159.html?utm_source=itdadao&utm_medium=referral