2021.12.15 李航老师《统计学习方法》
# 新坑
一. 统计学习及监督学习概论
1.1 基础知识
1.1.1 统计学习目的
统计学习用于对数据的预测与分析,也就是对数据的预测与分析是通过构建概率统计模型实现的。
1.1.2 实现统计学习方法的步骤
(1)得到一个有限的训练数据(training data)集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
假设要学习的模型属于某个函数的集合,成为假设空间(hypothesis space)
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析;
其中, 模型(model)、策略(strategy)、算法(algorithm) 成为统计学习方法的三要素。
1.2 基本分类
x = ( x ( 1 ) , x ( 2 ) , . . . , x ( i ) , . . . , x ( n ) ) T x=(x^{(1)},x^{(2)},...,x^{(i)},...,x^{(n)})^T x=(x(1),x(2),...,x(i),...,x(n))T
其中,
x
(
i
)
x^{(i)}
x(i)表示
x
x
x的第i
个特征;
注意
x
(
i
)
x^{(i)}
x(i) 与
x
i
x_i
xi 不同,
x
i
x_i
xi 表示多个输入变量中的第i
个变量,即
x
i
=
(
x
i
(
1
)
,
x
i
(
2
)
,
.
.
.
,
x
i
(
i
)
,
.
.
.
,
x
i
(
n
)
)
T
x_i=(x^{(1)}_i,x^{(2)}_i,...,x^{(i)}_i,...,x^{(n)}_i)^T
xi=(xi(1),xi(2),...,xi(i),...,xi(n))T
统计学习或机器学习一般包括监督学习、无监督学习、强化学习,有时还包括半监督学习,主动学习。
1.2.1 监督学习
监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题
标注数据, 也就是训练数据
x
都有标记,即y
- 训练集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\lbrace(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\rbrace T={(x1,y1),(x2,y2),...,(xN,yN)}
-
模型
模型属于有输入空间到输出空间的映射的集合,这个集合就是假设空间。
监督学习的模型可以是概率模型或非概率模型,条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X) 或决策函数 Y = f ( X ) Y=f(X) Y=f(X)
图中模型: P ^ ( y ∣ x ) , y = f ^ ( x ) \hat P(y|x), y=\hat f(x) P^(y∣x),y=f^(x) 这种有帽子的是我们训练的模型估算出来的结果
【老羊理解】
(1) 概率模型,
P(Y|X)
比如数据x=3
,属于0
类的概率为0.8
;属于1
类的概率为0.2
;(2) 决策函数
y=f(x)
,比如数据x=3
输入y=f(3)=1
-
预测系统
条件概率分布 P ^ ( Y ∣ X ) \hat P(Y|X) P^(Y∣X) 或决策函数 Y = f ^ ( X ) Y=\hat f(X) Y=f^(X)描述输入与输出随机变量之间的映射关系。
在预测过程中,预测系统对于给定的测试样本集中的输入 x N + 1 x_{N+1} xN+1, 由模型 y N + 1 = a r g m a x y P ^ ( y ∣ x N + 1 ) 或 y N + 1 = f ^ ( x N + 1 ) y_{N+1}=\underset{y}{argmax}\hat P(y|x_{N+1}) 或 y_{N+1}=\hat f(x_{N+1}) yN+1=yargmaxP^(y∣xN+1)或yN+1=f^(xN+1)给出相应的输出 y N + 1 y_{N+1} yN+1。其中, y N + 1 = a r g m a x y P ^ ( y ∣ x N + 1 ) y_{N+1}=\underset{y}{argmax}\hat P(y|x_{N+1}) yN+1=yargmaxP^(y∣xN+1) 这个意思就是在 x N + 1 x_{N+1} xN+1输入前提下,输出最大概率的
y
类别数据
x=3
,属于0
类的概率为0.8
;属于1
类的概率为0.2
;所以数据x=3
属于y=0
类
1.2.2 无监督学习
无标注的数据中学习预测模型的机器学习问题;
- 训练集
无监督学习通常使用大量的无标注数据学习或训练,每一个样本是一个实例。训练数据表示为 U = { x 1 , x 2 , . . . , x N } U=\lbrace x_1,x_2,...,x_N\rbrace U={x1,x2,...,xN}其中 x i , i = 1 , 2 , . . . N x_i,i=1,2,...N xi,i=1,2,...N,是样本
-
模型
(1)前面讲过,条件概率分布 P ( Z ∣ X ) P(Z|X) P(Z∣X) 或决策函数 Y = g ( X ) Y=g(X) Y=g(X);
(2)条件概率分布 P ( X ∣ Z ) P(X|Z) P(X∣Z), 用于聚类或降维,意思就是 在类
Z=0,1,2,...
类时候X
的概率分布;【老羊理解】
N
个数据,每个数据有M
维特征,所以输入矩阵如下:
[ x 1 ( 1 ) x 2 ( 1 ) . . . x i ( 1 ) . . . x N ( 1 ) x 1 ( 2 ) x 2 ( 2 ) . . . x i ( 2 ) . . . x N ( 2 ) . . . . . . . . . . . . . . . . . . x 1 ( j ) x 2 ( j ) . . . x i ( j ) . . . x N ( j ) . . . . . . . . . . . . . . . . . . x 1 ( M ) x 2 ( M ) . . . x i ( M ) . . . x N ( M ) ] M N \begin{bmatrix} x_1^{(1)} & x_2^{(1)} & ... &x_i^{(1)}& ... &x_N^{(1)}\\ x_1^{(2)} & x_2^{(2)}& ... &x_i^{(2)}& ... &x_N^{(2)} \\ ... & ...& ... &... & ... &... \\ x_1^{(j)} & x_2^{(j)}& ... &x_i^{(j)}& ... &x_N^{(j)} \\ ... & ...& ... &... & ... &... \\ x_1^{(M)} & x_2^{(M)}& ... &x_i^{(M)} & ... &x_N^{(M)}\\\end{bmatrix} _{MN} ⎣⎢⎢⎢⎢⎢⎢⎢⎡x1(1)x1(2)...x1(j)...x1(M)x2(1)x2(2)...x2(j)...x2(M)..................xi(1)xi(2)...xi(j)...xi(M)..................xN(1)xN(2)...xN(j)...xN(M)⎦⎥⎥⎥⎥⎥⎥⎥⎤MN(1) 条件概率分布
P(Z|X)
理解:我们现在有
N
个数据,如果每个数据一类,那么可以分N
类,但现实中往往只是分Z
类,Z << N
,即
(1) 条件概率分布
P(X|Z)
理解:我们每个数据有
M
维特征,但有的特征我们没有用,我们把特征减少到Z
维,Z < M
来降低数据的计算量。那么
P(X|Z)
就是降低到Z
维后X
的概率分布情况。
1.2.3 强化学习
是指智能系统在环境的连续互动中学习最优行为策略的机器学习问题。
在每一步t
,观察一个状态(state)St
与一个奖励(reward)rt
,采取一个动作(action)at
.
环境根据智能系统选择的动作,决定下一步t+1
的状态
S
t
+
1
S_{t+1}
St+1,奖励
r
t
+
1
r_{t+1}
rt+1,动作
a
t
+
1
a_{t+1}
at+1
策略就是长期积累的奖励最大化。 强化学习过程中,系统不断地试错,最终达到最优策略的目的。