统计方法学习task01

最新推荐文章于 2024-07-13 20:38:58 发布

Oona要好好写代码

最新推荐文章于 2024-07-13 20:38:58 发布

阅读量136

点赞数

分类专栏： 2023年2月数分学习文章标签：学习算法

本文链接：https://blog.csdn.net/weixin_47728930/article/details/129053623

版权

2023年2月数分学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

（一）统计学习方法

统计学习方法包括：模型的假设空间、模型选择的准则及模型学习的算法；
统计学习方法的三要素：模型（model）、策略（strategy）、算法（algorithm）

（二）实现统计学习方法的步骤

（1）得到一个有限的训练数据集合
（2）确定包含所有可能的模型的假设空间，即学习模型的集合
（3）确定模型选择的准则，即学习的策略
（4）实现求解最优模型的算法，即学习的算法
（5）通过学习方法选择最优模型
（6）利用学习的最优模型对新数据进行预测或分析

（三）统计学习/机器学习的分类

3.1 基本分类 —— 监督学习/无监督学习/强化学习/半监督学习/主动学习
（1）监督学习：
概念：指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系，预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规模。
分类：根据输入与输出变量的比同类型，对预测任务给予不同的名称：
*
输入与输出均为连续变量的预测问题：回归问题
*
输出变量为有限个离散变量的预测问题：分类问题
*
输入与输出变量均为变量序列的预测问题：标注问题

e.g 自然语言处理中的词性标注（part of speechtagging）就是一个典型的标注问题：给定一个由单词组成的句子，对这个句子中的每一个单词进行词性标注，即对一个单词序列预测其对应的词性标记序列。

基本假设：统计学习假设数据存在一定的统计规律，X和Y有联合概率分布就是监督学习关于数据的基本假设。训练数据于测试数据被看作是依联合概率分布P（X,Y）独立同分布产生的。

X和Y有联合概率分布，二维随机变量(X,Y)的分布函数，或称为随机变量X和Y的联合分布函数。联合概率分布的几何意义：如果将二维随机变量(X,Y)看成是平面上随机点的坐标，那么分布函数F(x,y)在(x,y)处的函数值就是随机点(X,Y)落在以点(x,y)为顶点而位于该点左下方的无穷矩形域内的概率。

      模型评价：好的有监督学习产生的模型的特征，根据预测函数预测出的值Yi，与训练样本中实际的F（xi）的差距应该足够小

（2）无监督学习：
概念：无监督学习的本质是学习数据中的统计规律或潜在结构。
（3）强化学习：

        概念：是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程，智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。    


		*

马尔科夫链的解释型例子：

（4）半监督学习与主动学习：
*
半监督学习：利用标注数据和未标注数据预测模型的机器学习问题。通常有少量标注数据，大量未标注。半监督学习旨在利用未标注数据中的信息，辅助标注数据，进行监督学习，以较低的成本达到较好的学习效果。
*
主动学习：指机器不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题。以较小的标注代价，达到较好的学习效果。

3.2 按模型分类 —— 概率模型vs非概率模型/线性模型与非线性模型/参数化模型与非参数化模型
（1）概率模型vs非概率模型：
*
监督学习中概率模型是 P（y|x），非概率模型是y=f(x)，概率模型是生成模型，非概率模型是判别模型。

e.g. 决策树，朴素贝叶斯，隐马尔可夫，条件随机场，概率潜在语义分析…
*
无监督学习中，条件概率分布是 P（z|x）或P（x|z），非概率模型是 z=g(x)

e.g. 感知机，支持向量机，k邻近，AdaBoost，k均值，潜在语义分析
*
P（y|x）和 y=f(x) 可以互相转化，条件概率分布最大化后得到函数，函数归一化后得到条件概率分布。两者差异不在于输入与输出之间的映射关系，而在于模型的内在结构。概率模型一定可以表示为联合概率分布的形式。

（2）线性模型vs非线性模型：
*
线性模型：函数y=f(x)或z=g(x)是线性函数，则称模型是线性模型，否则为非线性模型。
*
线性模型：感知机，线性支持向量机，k邻近，k均值，潜在语义分析
*
非线性模型：AdaBoost，核函数支持向量机，神经网络；深度学习；

（3）参数化vs非参数化模型：
*
参数化模型：假设模型参数的维度固定，模型可以由有限维参数完全刻画

e.g. 感知机，朴素贝叶斯，logistic回归，k均值……
*
非参数化模型：维度不固定或无穷大，随着训练数据量的增加而增大。

e.g. 决策树，支持向量机，AdaBoost，K邻近，潜在语义分析……

3.3 按算法分类 —— 在线学习与批量学习
3.4 按技巧分类 —— 贝叶斯学习与核方法

（四）统计学习方法的三要素

        方法 = 模型 + 策略 + 算法

4.1 策略
统计学的目标从假设空间中选取最优模型。
（1）损失函数和风险函数
损失函数用来衡量预测错误的程度。
损失函数类型：0-1损失函数；平方损失函数；绝对损失函数；对数损失函数或对数似然损失函数
衡量：损失函数值越小，模型就越好。

        期望损失 —— 风险函数：
      

        学习的目标就是选择期望风险最小的模型。 —— 自然的想法是用经验风险估计期望风险，但需要对经验风险进行一定的矫正。 —— 关系到监督想学习的两个基本策略：经验风险最小化和结构风险最小化。

	*

经验风险最小化：样本容量足够大时好用，在现实中被广泛采用，如极大似然估计。
*
结构风险最小化：样本容量小时，经验风险最小化容易出现“过拟合”，为防止，采用此方法 —— 等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。

（五）模型评估与模型选择

Oona要好好写代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计方法学习task01

李航第二版统计学习方法学习笔记
复制链接

扫一扫

专栏目录