统计学习方法概论

最新推荐文章于 2023-03-08 21:27:59 发布

张小彬的代码人生

最新推荐文章于 2023-03-08 21:27:59 发布

阅读量740

点赞数

分类专栏：机器学习文章标签：统计学习方法机器学习概论

本文链接：https://blog.csdn.net/zhangxb35/article/details/50706182

版权

机器学习专栏收录该内容

22 篇文章 7 订阅

订阅专栏

１．监督学习

统计学习方法包括了

监督学习（Supervised Learning）
非监督学习（Unsupervised Learning）
半监督学习（Semi-supervised Learning）
强化学习（Reinforcement Learning）

《统计学习方法》这本书主要讲的是一些常见的监督学习的方法。

２．基本概念

输入空间，输出空间与特征向量

假设我们有一个训练数据集合Ｔ，集合大小为Ｎ，

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T=\{(x_1, y_1), (x_2, y_2), ... , (x_N, y _N)\}$
所有的输入

xi $x_i$ 都是输入变量，而输入变量的取值空间为 输入空间；所有的输出

yi $y_i$ 都是输出变量，输出变量的取值空间为 输出空间；

每个 $x_i$ 又可以表示为一个特征向量的形式

x i = (x (1) i, x (2) i, . . ., x (n) i) T

$x_i = (x_i^{(1)}, x_i^{(2)}, ... , x_i^{(n)})^T$
其中，ｎ表示特征向量的个数，

x(2)i $x_i^{(2)}$ 表示第ｉ个训练数据的输入

xi $x_i$ 的第２个特征。最后的Ｔ表示特征向量的转置，因为我们一般都用列向量来表示。

联合概率分布

监督学习关于数据有如下假设：输入与输出随即变量Ｘ和Ｙ服从联合概率分布 P(X, Y)，而训练数据和测试数据被看做是依照联合概率分布 P(X, Y) 独立同分布产生的。

假设空间（hypothesis space）

机器学习想要学习到的模型，即输入空间到输出空间的映射，可以用决策函数（decision function or hypothesis function）来表示，

概率模型用 $P(Y\ |\ X)$
非概率模型用 $Y= f(X)$

决策函数的取值空间，叫做假设空间。

３．统计学习三要素

统计学习三要素是模型，策略和算法。

3.1 模型

模型就是机器学习中要学习的条件概率分布或者决策函数，他们的集合就是假设空间 $F$ ，如下两种：

决策函数 F={ f | Y=fθ(X),θ∈Rn}
- 条件概率分布 $F = \{P\ |\ P_\theta(Y\ |\ X), \theta \in R^n\}$
- 参数向量 $\theta$ 取值于ｎ维的欧式空间 $R^n$ ，也称为参数空间。
  
  3.2 策略
  
  这部分主要是定义损失函数来评价模型预测的好坏，从而可以从假设空间里选取最优的模型。
  
  损失函数
  
  常见的损失函数有：
  - 0-1 损失函数（0-1 loss function）
    $L (Y, f (X)) = {1, 0, Y \neq f (X) Y = f (X)$ $L(Y,\ f(X)) = \left\{ \begin{aligned} 1,& \quad Y\neq f(X) \\ 0, & \quad Y = f(X) \\ \end{aligned} \right.$
  - 平方损失函数（quadratic loss function）
    $L (Y, f (Y)) = (Y - f (X)) 2$ $L(Y,\ f(Y)) = (Y - f(X))^2$
  - 绝对值损失函数（absolute loss function）
    $L (Y, f (X)) = | Y - f (X) |$ $L(Y,\ f(X)) = |Y - f(X)|$
  - 对数损失函数（logarithmic loss function）或者叫对数似然损失函数（logarithmic likelihood loss function）
    $L (Y, P (Y | X)) = - l o g P (Y | X)$ $L(Y,\ P(Y\ |\ X)) = -logP(Y\ |\ X)$
  期望风险（expected risk）
  
  期望风险，或者叫风险函数，表示理论上模型 $f(X)$ 关于联合分布 $P(X, Y)$ 的平均意义下的损失。
  
  Rexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
  
  经验风险（empirical risk）
  
  经验风险，或者叫经验损失，表示模型 $f(X)$ 关于训练数据集的平均损失。
  
  Remp(f)=1N∑i=1NL(yi,f(xi))
  
  结构风险（strcutural risk）
  
  结构风险，是在经验风险的基础上，加上正则化项（regularization）者惩罚项（penalty term）函数，以防止小数据集出现过拟合现象。
  
  Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)
  
  3.3 算法
  
  感知机，Ｋ近邻，朴素贝叶斯，决策树，逻辑斯特回归，最大上模型，支持向量机，AdaBoosting，EM算法，隐马尔科夫模型，条件随机场
  
  ４．模型评估与模型选择
  
  欠拟合和过拟合的概念。
  
  ５．正则化与交叉验证
  
  正则化
  
  上面提取到的结构风险，后面常加上正则项 $J(f)$ ，若取损失函数为平方损失，设 $w$ 为参数向量，若正则项取参数向量的 $L_2$ 范数，
  
  L(w)=1N∑i=1N[ f(xi;w)−yi]2+λ2||w||2
  
  若正则项取参数向量的 L1 范数，
  
  L(w)=1N∑i=1N[ f(xi;w)−yi]2+λ ||w||1
  
  注：向量 $w$ 的 $p$ -范数定义为 $||w|| = \sqrt[q]{\sum_{i=1}^n|\ x_i\ |^{\ p}}$ ，如 L0 范数就是向量中非０元素的个数，L1 范数就是向量各项绝对值之和，L2 范数就是平方和开根号。
  
  正则化是符合奥卡姆剃刀（Occam’s razor）原理的。
  
  交叉验证
  
  可以将数据分成下面三部分：
  - 训练集（training set）
  - 验证集（validation set）
  - 测试集（test set）
  ６．泛化能力
  
  存在泛化误差上界（generalization error bound），可用 Hoeffding 不等式证明。
  
  ７．生成模型与判别模型
  
  生成模型（generative model）
  
  生成模型可以还原出联合概率分布 $P(X, Y)$ ，然后通过贝叶斯规则求出条件概率分布 $P(Y\ |\ X)$ ，更接近与真实的模型，典型的生成模型有朴素贝叶斯，隐马尔科夫模型。
  
  判别模型（discriminative model）
  
  判别模型则是直接判别类别，即直接计算概率 $P(Y\ |\ X)$ 。
  
  ８．分类问题
  
  评价二分类的准确率，我们往往用下面的标准，可定义：
  - TP——将正类预测成正类数
  - FN——将正类预测成负类数
  - FP——将负类预测为正类数
  - TN——将负类预测为负类数
  精确率（P，Precision）定义为
  
  P=TPTP+FP
  
  召回率（R，Recall）定义为
  R=TPTP+FN
  
  F1 值，是精确率和召回率的调和均值，即
  2F1=1P+1R
  　代入计算得，
  F1=2TP2TP+FP+FN
  
  ９．标注问题
  
  标注（tagging），也是一个监督问题，可以认为是分类问题的一个推广。标注问题的输入是一个观测序列，输出是一个标记序列，或者状态序列。
  
  给定训练集Ｔ
  
  T={(x1,y1),(x2,y2),...,(xN,yN)}
  
  其中某个样本 (xi,yi) 可以写做：
  - $x_i = (x_i^{(1)}, x_i^{(2)}, ... , x_i^{(n)})^T$ 为输入序列，或称观测序列
  - $y_i = (y_i^{(1)}, y_i^{(2)}, ... , y_i^{(n)})^T$ 为输出序列，也即标记序列