《统计学习方法》
第一章 概论
- 统计学习(statistical learning)也称统计机器学习。
- 学习: “如果一个系统能够执行某个进程来改进它的性能,这就是学习”—Herbert A.Simon
- 统计学习的研究对象:数据。从数据出发,提取数据的特征,抽象数据的模型,发现数据中的知识,又回到数据分析预测中去。
- 方法:基于数据构建概率统计模型从而对数据预测与分析。
- 三要素:
\quad
模型的假设空间 → \to →模型
根据某个评价准则选取一个最优模型 → \to →策略
最优模型选取由算法实现 → \to →算法
统计学习的分类
一般包括监督学习、无监督学习、强化学习。有时包括半监督学习、主动学习。
1、监督学习(supervised learning)
本质是学习输入到输出的映射统计规律。
输入实例x的特征向量记做:
x
=
(
x
(
1
)
,
x
(
2
)
.
.
.
x
(
i
)
.
.
.
x
(
n
)
)
x = ( x^{(1)},x^{(2)}...x^{(i)}...x^{(n)})
x=(x(1),x(2)...x(i)...x(n))
x
i
x_i
xi与
x
(
i
)
x^{(i)}
x(i)不同,前者是多个输入变量中的第i个变量。
x
i
=
(
x
i
(
1
)
,
x
i
(
2
)
.
.
.
x
i
(
i
)
.
.
.
x
i
(
n
)
)
x_i =( x_i^{(1)},x_i^{(2)}...x_i^{(i)}...x_i^{(n)})
xi=(xi(1),xi(2)...xi(i)...xi(n))
训练集表示为:
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
(
x
N
,
y
N
)
}
T =\{ {(x_1,y_1),(x_2,y_2),...(x_N,y_N)}\}
T={(x1,y1),(x2,y2),...(xN,yN)}
测试数据也由输入与输出组成。
X,Y可以是连续也可以是离散。输入与输出变量均为连续时:回归问题 ;输出变量为有限个离散变量时:分类问题;输入变量与输出变量均为变量寻列的预测问题称为标注问题。(自然语言处理中的词性标注(part of speech tagging)就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。)
联合概率分布:X,Y具有联合概率分布P是监督学习关于数据的基本假设。
假设空间:由输入空间到输出空间的映射集合就是假设空间。
2、无监督学习(unsupervised learning)
从无标注的数据中心学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构。
X是输入空间,Z是隐式结构空间,条件概率
P
(
z
∣
x
)
P(z|x)
P(z∣x)。
训练数据表示为
U
=
{
x
1
,
x
2
,
.
.
.
,
x
n
}
U = \{x_1,x_2,...,x_n\}
U={x1,x2,...,xn}
3、强化学习(reinforcement learning)
智能系统在与环境连续互动中学习最优行为策略的机器学习问题。
假设智能系统与环境的互动基于马科尔夫决策过程,智能系统能观测到的是与环境互动的到的数据序列。强化学习的本质是学习最优的序贯决策。
从环境观测到一个状态s_t与一个奖励r_t采取一个动作a_t。
目标是长期积累奖励的最大化。
强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程,由五元组<S,A,P,r,
γ
\gamma
γ>组成
S是有限状态(state)集合
A是有限动作(action)集合
P是状态转移概率(transiton probility)函数
r是奖励函数(reward function)
γ
\gamma
γ是衰减系数(discount factor)
γ
∈
[
0
,
1
]
\quad\gamma\in[0,1]
γ∈[0,1]
马尔科夫性:下一个动作只依赖于前一个状态和动作。
价值函数或状态价值函数:策略
π
\pi
π的从某一个状态s开始长期积累奖励的数学期望。
v
π
(
s
)
=
E
p
i
[
r
t
+
1
+
γ
r
t
+
2
+
γ
2
r
t
+
3
+
.
.
.
∣
s
t
=
s
]
v_{\pi}(s) = E_{pi}[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+...|s_{t}= s]
vπ(s)=Epi[rt+1+γrt+2+γ2rt+3+...∣st=s]
动作价值函数::策略
π
\pi
π的从某一个状态s和动作a开始长期积累奖励的数学期望。
q
π
(
s
)
=
E
p
i
[
r
t
+
1
+
γ
r
t
+
2
+
γ
2
r
t
+
3
+
.
.
.
∣
s
t
=
s
,
a
t
=
a
]
q_{\pi}(s) = E_{pi}[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+...|s_{t}= s,a_{t}= a]
qπ(s)=Epi[rt+1+γrt+2+γ2rt+3+...∣st=s,at=a]
目标求解最优策略
π
∗
\pi^{* }
π∗强化学习的方法有基于策略的、基于价值的,这两个属于无模型的方法,还有有模型的方法。
4、半监督学习与主动学习
半监督学习:指利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习:指机器不断主动给出实例让老师进行标注,然后利用标注数据学习预测模型的机器学习问题。
其他分类标准下的分类
按模型分类
1、概率模型与非概率模型
2、线性与非线性
3、参数化模型与非参数化模型
参数化模型适合简单问题,现实中的复杂问题,非参数化模型更加有效。
按算法分类
在线学习和分类学习。
在线学习是每次接受一个样本,进行预测,之后学习模型。有些场景要求是在线的。比如数据随时间动态变化,需要算法适应新的模式(不满足独立同分布假设)。利用随机梯度下降的感知基学习算法就是在线学习算法。
按技巧分类
1.贝叶斯学习
利用贝叶斯定理,计算在给定数据条件下模型的条件概率(后验概率)。
P
(
θ
∣
D
)
=
P
(
θ
)
P
(
D
∣
θ
)
P
(
D
)
P(\theta |D) = \frac{P(\theta )P(D|\theta)}{P(D)}
P(θ∣D)=P(D)P(θ)P(D∣θ)
2、核方法
用核函数表示和学习。
统计学习三要素
方法 = 模型+策略+算法
在监督学习中论述
1、模型
模型就是要学习的条件概率分布或决策函数。假设空间用
F
F
F表示。
决策函数:
F
=
{
f
∣
Y
=
f
(
X
)
}
F = \left \{ f|Y = f(X) \right \}
F={f∣Y=f(X)} 或
条件概率分布:
F
=
{
P
∣
P
(
Y
∣
X
)
}
F = \left \{ P|P(Y|X) \right \}
F={P∣P(Y∣X)}
2、策略
按照什么样的准则学习或选择最优模型。
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
1、损失函数与风险函数
输出的预测值
f
(
X
)
f(X)
f(X)与真实值
Y
Y
Y可能一致也可能不一致,损失函数(loss founction)或代价函数(cost function)来度量预测错误地程度。损失函数是
f
(
X
)
f(X)
f(X)与
Y
Y
Y的非负实值函数。
常用的损失函数:
(1)0-1损失函数(0-1 loss function)
L
(
Y
,
f
(
X
)
)
=
{
1
,
Y
≠
f
(
x
)
0
,
Y
=
f
(
x
)
L\left ( Y,f\left ( X \right ) \right )=\left\{\begin{matrix} 1, Y\neq f(x)\\ 0,Y=f(x)\end{matrix}\right.
L(Y,f(X))={1,Y=f(x)0,Y=f(x)
(2)平方损失函数(quadratic loss function)
L
(
Y
,
f
(
X
)
)
=
(
Y
−
f
(
X
)
)
2
L(Y,f(X))=(Y-f(X))^{2}
L(Y,f(X))=(Y−f(X))2
(3)绝对损失函数(absolute loss founction)
L
(
Y
,
f
(
X
)
)
=
∣
Y
−
f
(
X
)
∣
L(Y,f(X))=\left|Y-f(X)\right|
L(Y,f(X))=∣Y−f(X)∣
(4)对数损失函数(logarithmic loss founction)
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
l
o
g
P
(
Y
∣
X
)
L\left ( Y,P(Y|X) \right )=-logP(Y|X)
L(Y,P(Y∣X))=−logP(Y∣X)
损失函数值越小,模型就越好。由于模型的输入输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是
R
e
x
p
=
E
P
[
L
(
Y
,
f
(
X
)
)
]
=
∫
x
⋅
y
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
R_{exp}= E_{P}[L(Y,f(X))]=\int_{x·y}L(y,f\left ( x \right ))P(x,y)dxdy
Rexp=EP[L(Y,f(X))]=∫x⋅yL(y,f(x))P(x,y)dxdy
这就是风险函数(risk function)或期望损失(expected loss)
联合概率分布是未知的,所以风险函数无法计算。
但是可以计算平均损失或称为经验损失(empirical loss),记做
R
e
m
p
R_{emp}
Remp:
R
e
m
p
(
f
)
=
1
N
∑
N
i
=
1
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f)=\frac{1}{N}\sum_{N}^{i=1}L\left ( y_{i} ,f\left ( x_{i} \right )\right )
Remp(f)=N1N∑i=1L(yi,f(xi))
关于训练样本集的平均损失。根据大数定律(在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率),当样本容量N无线区域无穷时,经验风险趋于期望风险。
现实中样本数量有限,这种估计本不理想,要对经验风险惊醒一定的矫正。监督学习的两个基本策略:经验风险最小化和结构风险最小化。
2、经验风险最小化和结构风险最小化
经验风险最小化(empirical risk minimization ERM):经验风险最小的模型师最优模型。
样本容量小时产生过拟合(over fitting)。
结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出,等价于正则化(regularization)。在经验风险的基础上加上了表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。
R
s
r
m
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)
Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
J
(
f
)
J(f)
J(f)为模型复杂度是定义在假设空间
F
F
F上的泛函(把假设空间映射为函数)。结构风险小,需要经验风险与模型复杂度同时小。
3、算法
学习模型的具体计算方法。用什么样的计算方法求解最优模型。