统计学习方法笔记——第一章（1）

最新推荐文章于 2024-09-01 23:06:50 发布

Run！Rabbit Run！

最新推荐文章于 2024-09-01 23:06:50 发布

阅读量124

点赞数 2

分类专栏：统计学习方法机器学习文章标签：笔记机器学习数据分析概率论

本文链接：https://blog.csdn.net/weixin_46345659/article/details/132032023

版权

统计学习方法同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

概论

1.统计学习方法三要素：模型（model）、策略（strategy）、算法（algorithm）
2.实现步骤

得到有限的训练数据集合
确定包含所有可能的模型的假设空间，即学习模型的集合
确定模型选择的准则，即学习的策略
实现求解最优模型的算法
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析

3.统计学习基本分类

监督学习
从标注数据中学习预测模型的机器学习问题，本质是学习输入到输出的映射的统计规律。
1. 回归问题：输入变量与输出变量均为连续变量
2. 分类问题：输出变量为有限个离散变量
3. 标注问题：输入变量于输出变量均为变量序列
  从训练数据集(trainging data)中学习模型，对测试数据集(test data)进行预测
  记：输入变量为** $X$ ，输出变量为 $Y$ ，输入变量取值 $x$ ，输出变量取值 $y$ **
  输入实例 $x$ 的特征向量
  $x=(x^{(1)},x^{(2)},...,x^{(i)},...,x^{(n)})^T$
  $x^{(i)}$ 表示 $x$ 的第 $i$ 个特征， $x_i$ 表示第 $i$ 个输入变量，即
  $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T$
  训练数据、测试数据由输入（特征向量）与输出对组成，输入输出对又称样本（sample）或者样本点
  $T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$
  监督学习的模型可以是概率模型或者非概率模型，由条件概率分布 $P (Y ∣ X)$ 或者决策函数 $Y = f (x)$ 表示。具体的输入进行预测时，表示为 $P (y ∣ x)$ 或者 $y = f (x)$
  监督学习分为学习和预测两个过程，分别由学习系统和预测系统完成。
  学习系统利用给定的训练数据集，用过学习/训练得到模型，表示为条件概率分布 $\hat P(Y|X)$ 或者决策函数 $Y=\hat f(X)$ ，描述输入与输出随机变量之间的映射关系。
  预测过程中，预测系统对于测试样本集中的输入 $x_{N+1}$ ，由模型 $y_{N+1}= \underset{y}{arg\max} \hat P(y|x_{N+1})$ 或者 $y_{N+1}=\hat f(x_{N+1})$ 给出相应的输出 $y_{N+1}$ 。
无监督学习
无监督学习是指从无标注数据中学习预测模型的机器学习问题，本质是学习数据中的统计规律或者潜在结构。目的是找出给定的评价标准下的最优模型。
记：输入空间为 $\mathcal{X}$ ，隐式结构空间为 $\mathcal{Z}$ ,学习模型表示为函数 $z = g (x)$ ，条件概率分布 $P (z ∣ x)$ 或者 $P (x ∣ z)$ ， $x\in\mathcal{X}$ 为输入， $z\in \mathcal{Z}$ 为输出。
假设空间：包含所有可能的模型的集合
训练数据表示为
$U=\{x_1,x_2,...,x_N\}其中x_i是样本$
无监督学习可用于对已有数据的分析和对未来数据的预测，分析时使用学习得到的模型，即函数 $z=\hat g(x)$ ，条件概率分布 $\hat P(z|x)$ 或者 $\hat P(x|z)$ 。
学习过程中，学习系统从训练数据集学习得到最优模型，表示为 $x=\hat g(x)$ ，条件概率分布 $\hat P(z|x)$ 或者 $\hat P(x|z)$ 。
预测过程中，预测系统对于给定的输入 $x_{N+1}$ ，进行聚类或降维，或者由模型 $\hat P(x|z)$ 给出输入的概率 $\hat P(x_{N+1}|z_{N+1})$ ，进行概率估计。
强化学习（暂略）

4.统计学习方法三要素

模型
即所有要学习的条件概率分布或者决策函数。
假设空间高喊所有可能的条件概率分布或决策函数。一般有无穷多个。
用 $\mathcal{F}=\{Y=f(X)\}$ 表示假设空间， $\mathcal{F}$ 通常是由一个参数向量决定的函数族：
$\mathcal{F}=\{f|Y=f_\theta (X),\theta\in R^n\}$
假设空间也可以定义为条件概率的集合：
$\mathcal{F} = \{P|P(Y|X)\}$
$\mathcal{F}$ 通常是由一个参数向量决定的条件概率分布族：
$\mathcal{F}=\{P|P(Y_\theta|X),\theta\in R^n\}$
策略
接下来要考虑按照什么样的准则学习或者选择最优模型。
这里引入了损失函数与风险函数的概念。损失函数衡量模型一次预测的好坏，风险函数衡量平均一一下的预测好坏。
1.损失函数(Loss Function)
损失函数是 $f (X)$ 和 $Y$ 的非负实值函数，记作 $L (Y, f (X))$
常用的损失函数有以下几种：
0-1损失函数(0-1 loss function)
$\begin{cases} 1,Y\neq f(X)\\ \\ 0,Y= f(X)\\ \end{cases}$
平方损失函数(quadratic loss function)
$L(Y,f(X))=({Y-f(X)})^2$
绝对损失函数(absolute loss function)
$L(Y,f(X))=|{Y-f(X)}|$
对数损失函数或似然损失函数
$L(Y,P(Y|X))=-\log{P(Y|X)}$

2.风险函数(Risk FUnction)
损失函数数值越小，模型就越好
模型的输入是输出(X,Y)是随机变量，遵循联合分布 $P (X, Y)$ ，损失函数的期望是
$R_{exp}(f)=E_P[L(Y,f(X))] =\int_{\mathcal{X}\times\mathcal(Y)}L(y,f(x))P(x,y)dxdy$
$R_{exp}$ 就是理论上 $f (X)$ 关于 $P (X, Y)$ 的平均意义下的损失，成为风险函数，或者期望损失(expected loss)，由于 $P (X, Y)$ 是未知的，所以 $R_{exp}(f)$ 无法直接计算。
模型关于训练数据集的平均损失成为经验风险(empirical risk)或者经验损失(empirical loss)，记为 $R_{emp}(f)$ :
$R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}{L(y_i,f(x_i))}$
根据大数定律，当样本容量 $N\rightarrow\infty$ 时， $R_{emp}(f)\rightarrow R_{exp}(f)$