统计学习方法（李航）第一章统计学习方法概率

最新推荐文章于 2023-08-07 10:58:07 发布

斯外戈的小白

最新推荐文章于 2023-08-07 10:58:07 发布

阅读量245

点赞数

文章标签：机器学习概率论深度学习

本文链接：https://blog.csdn.net/weixin_51589123/article/details/120089840

版权

第一章：统计学习方法概论

文章目录

第一章：统计学习方法概论
1.1统计学习
- 标题机器学习分类
- 监督学习的步骤：
1.2监督学习
1.3统计学习三要素
1.4模型评估与模型选择
1.5 交叉验证
1.7生成模型与判别模型
1.8分类问题
1.9标注问题
1.10回归问题

1.1统计学习

标题机器学习分类

监督学习、无监督学习、半监督学习和强化学习

监督学习的步骤：

（1）训练数据集合；
（2）确定模型的假设空间，也就是备选模型；
（3）确定模型，选择准则，即学习策略；
（4）实现求解最优模型的算法；
（5）通过学习方法选择最优模型；
（6）利用学习的最优模型对新数据进行预测或分析。
在这里插入图片描述

1.2监督学习

基本概念

（1）训练集为：
在这里插入图片描述
（2）x的特征向量：

模型

（1）决策函数：

在这里插入图片描述
预测形式如下：

（2）条件概率分布：

在这里插入图片描述
预测形式如下：

1.3统计学习三要素

模型（假设空间）

是所有模型、决策的集合
决策函数如下：
在这里插入图片描述
条件概率分布：

策略

1、损失函数分类
（1）0-1损失函数：
在这里插入图片描述
（2）平方损失函数

（3）绝对损失函数

（4）对数损失函数

2、风险函数分类
（1）经验风险最小化
经验风险是模型关于训练样本集的平均损失

（2）结构风险最小化

在经验风险最小化的基础上加了一个正则项，为了防止过拟合

算法：

选择一个合适的算法，使得可以求解最优模型

1.4模型评估与模型选择

首先要划分训练集和测试集，测试集只用来测试，不用来训练
训练误差
在这里插入图片描述
测试误差

一般来说都是在测试集上来检验模型的效果。在测试集上选择一个最佳的参数，然后在验证集上验证效果

过拟合与模型选择

正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。这样也就会使得参数值相对较小，对于一个噪声阿狸说，其变动也不会太大，增加了模型的鲁棒性。

1.5 交叉验证

简答交叉验证
将数据算计分成两部分，一部分作为训练集，另一部分作为测试集，在训练集上训练，在测试集上评价测试误差，选出误差最小的模型
S折交叉验证
将已给数据企切分成S个互不相交的大小相同的自己，然后利用S-1个子集来训练模型，利用余下的子集来测试模型，对可能的S中选择重复进行，最后选出S次测评中平均测试误差最小的模型。

1.7生成模型与判别模型

生成模型
在这里插入图片描述
判别模型

直接学习决策函数f(X)或者是条件概率分布P(Y|X）作为预测的模型

1.8分类问题

精确率、召回率和1F值根据纸质版笔记来记忆

1.9标注问题

标注常用的统计学习方法有：隐马尔可夫模型、条件随机场。

1.10回归问题

按照输入变量的个数，分为一元回归和多元回归；也可以按照输入变量和输出变量之间的关系分为线性回归和非线性回归。
回归学习最常用的损失函数是平方损失函数，由著名的最小二乘法来求解。