文章目录
统计学习概论
1.1 统计学习定义
统计学习:计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
统计学习也可以称为统计机器学习,所以这本统计学习方法,介绍的其实就是机器学习方法。
统计学习方法的三要素:
- 模型:要学习的模型一般属于某个函数或者某个联合分布的集合,这个集合也被称为假设空间。
- 策略:如何从假设空间中选取一个最优模型的评价准则。
- 算法:对最优模型的选取。
1.2 统计学习分类
基本分类
监督学习
本质:学习从输入到输出的映射的统计规律。
输入空间:输入的所有取值。
输出空间:输出的所有取值。
特征空间:输入都是实例,通常将实例用特征向量表示,特征向量构成的空间为特征空间。而通常将实例从输入空间映射到特征空间。
特征向量 x:
x
=
(
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
i
)
,
⋯
,
x
(
n
)
)
T
x=\left( x^{\left( 1 \right)},x^{\left( 2 \right)},\cdots,x^{\left( i \right)},\cdots,x^{\left( n \right)}\right)^\mathrm{T}
x=(x(1),x(2),⋯,x(i),⋯,x(n))T
上标i表示x的第i个特征。
训练集T:
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
n
,
y
n
)
}
T=\left\{\left(x_{1},y_{1}\right),\left(x_{2},y_{2}\right),\cdots,\left(x_{n},y_{n}\right) \right\}
T={(x1,y1),(x2,y2),⋯,(xn,yn)}
不同的数据类型有不同的名称
数据类型 | 任务名称 |
---|---|
连续变量 | 回归问题 |
离散变量 | 分类问题 |
变量序列 | 标注问题 |
训练数据与测试数据被看作是根据联合概率分布P(X,Y)独立同分布产生的,所以X和Y 具有联合概率密度分布是监督学习关于数据的基本假设。
模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间,假设空间的确定意味着学习范围的确定。
无监督学习
本质:学习数据中的统计规律或潜在结构。
模型可以实现对数据的聚类,降维或概率估计。
强化学习
本质:学习数据中的统计规律或潜在结构。
马尔可夫决策过程
马尔可夫决策过程具有马尔可夫性,下一个状态只会被前一个状态与动作决定,由状态转移概率函数P(s’|s,a)表示
- S状态
- A动作
- P状态转移概率函数
- r奖励函数
- γ衰减函数
策略:给定状态下动作的函数a=f(s)或者条件概率分布P(a|s)。
价值函数(状态价值函数):策略从某一个状态s开始的长期积累的数学期望。
v
π
(
s
)
=
E
π
[
r
t
+
1
+
γ
r
t
+
2
+
γ
2
r
t
+
3
+
⋯
∣
s
t
=
s
]
v_{\pi}(s)=E_{\pi}[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+\cdots|s_{t}=s]
vπ(s)=Eπ[rt+1+γrt+2+γ2rt+3+⋯∣st=s]
动作价值函数:策略从某一个状态s和动作a开始的长期积累奖励的数学期望。
q
π
(
s
,
a
)
=
E
π
[
r
t
+
1
+
γ
r
t
+
2
+
γ
2
r
t
+
3
+
⋯
∣
s
t
=
s
,
a
t
=
a
]
q_{\pi}(s,a)=E_{\pi}[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+\cdots|s_{t}=s,a_{t}=a]
qπ(s,a)=Eπ[rt+1+γrt+2+γ2rt+3+⋯∣st=s,at=a]
强化学习的目标:在所有可能的策略中选出价值函数最大的策略π。
γ表示未来的奖励会有衰减。
有模型的方法试图直接学习马尔可夫决策过程的模型
无模型的方法
-
基于策略:求解最优策略,通常从具体策略开始,通过搜索更优策略进行。
-
基于价值:求解最优戒指函数,通常从具体价值函数开始,通过搜索最有价值函数进行
按模型分类
-
概率模型是生成模型
-
非概率模型是判别模型
-
区别:模型的内在结构。
-
线性模型
-
非线性模型
-
参数模型:假设模型的维数固定,模型可以由有限维的参数全刻画。
-
非参数模型:假设维度不固定或无穷大。
按算法分类
- 在线学习:每次接受一个样本,预测后再进行下一步学习。
- 批量学习:一次接受所有数据,学习后再预测。
- 在线学习通常比批量学习更难。
按技巧分类
- 贝叶斯学习:利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,应用这个原理对模型进行估计,对数据进行预测统计学习方法三要素。
极大似然估计:已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。
- 核方法:将线性模型扩展到非线性模型。定义核函数,达到特征空间的效果。
1.3 统计学习方法三要素
模型
假设空间F
F
=
{
f
∣
Y
=
f
(
x
)
}
F=\left\{f|Y=f(x)\right\}
F={f∣Y=f(x)}
F也通常是由一个参数向量决定的函数族
F
=
{
f
∣
Y
=
f
θ
(
x
)
}
F=\left\{f|Y=f_{θ}(x)\right\}
F={f∣Y=fθ(x)}
参数向量θ取值于n维欧式空间,称为参数空间。
也可以定义为条件概率的集合
F = { P ∣ P ( Y ∣ X ) } F=\left\{P|P(Y|X)\right\} F={P∣P(Y∣X)}
策略
目标:在假设空间中选取最优模型。
损失函数:L( Y , f(X) )
- 01损失函数
- 平方损失函数
- 绝对损失函数
- 对数损失函数
期望风险函数(期望损失)Rexp
R
e
x
p
=
E
p
[
L
(
Y
,
f
(
x
)
)
]
R_{exp}=Ep[L(Y,f(x))]
Rexp=Ep[L(Y,f(x))]
学习的目标就是选择期望损失最小的模型。
经验风险(经验损失)Remp
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(yi,f(x_i))
Remp(f)=N1i=1∑NL(yi,f(xi))
两个基本策略
经验风险最小化
- 样本容量足够大,效果才好。
- 样本太小容易出现过拟合现象。
- 当模型是条件概率分布,损失函数是对数损失函数时,该方法等价于极大似然估计。
结构风险最小化
结构风险定义Rsrm
R
s
r
m
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}(f)=\frac{1}{N}\sum_{i=1}^NL(yi,f(x_i))+\lambda J(f)
Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
- 经验风险+模型复杂度的正则化项。
- 当模型是条件概率分布,损失函数是对数损失函数,模型复杂度是模型的先验概率时,该方法等价于最大后验概率估计。
算法
统计学习的算法为求解最优化问题的算法。
1.4 模型评估与模型选择
训练误差与测试误差
-
训练误差:关于训练集的平均损失(这里套用的公式与经验损失一致)
-
测试误差:关于测试集的平均损失
-
测试误差小的方法具有更好的预测能力。
过拟合与模型选择
过拟合:一味追求提高训练数据的预测能力导致所选模型复杂度比真模型更高的现象。
模型选择:
- 确定模型复杂度。
- 按照经验风险最小化策略,求解参数。
测试误差会随着模型复杂度先减小后增大。
1.5 正则化与交叉验证
正则化
正则化项:一般是模型复杂度的单调递增函数。
正则化可以是模型参数向量的范数。
作用:是选择经验风险与模型复杂度同时较小的模型
交叉验证
适用于样本数据不充足的情况
-
简单交叉验证
将数据分为训练集和测试集。
-
S折交叉验证
将数据分为S个互不相交,大小相同的子集,然后随机选择1个为测试集,其余为训练集,重复进行S次。
-
留一交叉验证
当S为给定数据集容量时,是S折交叉验证的特殊情况。
1.6 泛化能力
泛化能力:是指该方法学习到的模型对位置数据的预测能力。(方法的一个属性)
测试误差来评价学习方法的泛化能力----缺点:依赖测试数据集。
为了解决这个问题,通常比较两种学习方法的泛化误差上界来比较他们的优劣。
空间容量越大,模型越难学,泛化误差上界越大
R
(
f
)
⩽
R
(
f
)
+
ε
(
d
,
N
,
δ
)
R(f)\leqslant \overset {~} {R}(f)+ε(d,N,\delta)
R(f)⩽R (f)+ε(d,N,δ)
左端R(f)是泛化误差,右端为泛化误差上界。右端第二项是N的单调递减函数,当N趋于无穷时趋于0.当空间包含的函数越多,值越大。
1.7 生成模型与判别模型
生成方法
模型给定 输入X 产生 输出Y 的生成关系。
特点:
-
学习收敛速度更快
-
可以还原出联合概率分布
-
存在隐变量还能用
判别方法
直接学习决策函数或概率分布函数作为预测模型。
特点:
- 学习准确率更高
- 可以简化学习问题
1.8 监督学习应用
分类问题
监督学习从数据中学习一个分类模型或分类决策函数,成为分类器。
对于二类分类问题常用的评价指标是精确率和召回率
- TP:将正类预测为正类数目
- FN:将正类预测为负类数
- FP:将负类预测为正类数
- TN:将负类预测为负类数
准确率:预测为正类中的正类比值
召回率:正类中预测为正类的比值
F1值:准确率和召回率的调和均值
标注问题
定义:输入一个观测序列 输出一个标记序列或状态序列。
目标:学习一个模型,使它能够对观测序列给出标记序列作为预测。
回归问题
目标:预测输入变量和输出变量之间的关系
回归学习最常用的损失函数是平方损失函数,此时回归问题可以用最小二乘法来求解
陌生概念
在学习第一章时遇到的陌生概念