统计学习方法笔记（一）

最新推荐文章于 2021-08-22 09:19:01 发布

zuxiaodon

最新推荐文章于 2021-08-22 09:19:01 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：统计学机器学习分类回归正则化

本文链接：https://blog.csdn.net/zuxiaodon/article/details/51941159

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

之前都是手写笔记，但是由于习惯不好，笔记老是找不到，又有很多人推荐我写博客方便以后查看，所以这几天会将我之前的笔记，一点点的写到这里来，但是由于CSDN的博客设置不是很会用，会很粗糙哦。。。

首先是李航老师的统计学习方法，一直认为是入门的非常经典的一本书，里面的理论知识非常适合新手看。

接下来，是我当时写的一些笔记。

（一）统计学习方法概论

统计学习三要素：方法=模型+策略+算法

模型：在监督学习过程中，模型就是所要学习的条件概率或决策函数，模型的假设空间包括所有可能的条件概率或决策函数。
策略，即按照什么样的准则选择最优模型。

损失函数和风险函数（。。。实在是不想打公式）

期望损失（期望风险）：

经验损失（经验风险）

学习的目标就是选择期望风险最小的模型。但是一方面算期望风险需要用到联合分布，另一方面联合分布又是未知的，所以监督学习就成为一个病态的问题。

但是由于我们有神奇的大数定理，当样本容量N趋向于无穷是，我们的经验风险趋向于期望风险！！这是非常关键的一点，所以我们可以用经验风险去估计期望风险。

2，经验风险最小化和结构最小化

学机器学习的同学对着两个肯定不陌生，但是很多人不清楚这这两个名词是怎么来的。

经验风险最小化：（听名字都知道是什么了）

当样本容量足够大是，经验风险最小化能保证有很好的学习效果，“极大似然估计”就是经验风险最小化的一个例子。但是，当样本容量很小时，效果就未必很好。

3，结构风险最小化

本身就是为了防止过你和而提出的策略，就是在经验风险上加上了模型复杂惩罚函数，就是正则化项或罚项。

其中的J(f)为模型的复杂度。

贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子。

4，过拟合

指学习时选择的模型所包含的参数过多，以至于出现模型对已知数据预测的很好，但对未知数据预测的很差的现象。

一般防止过拟合的方法：正则化与交叉验证。

5，正则化

就像上面结构风险公式的后半部分，正则化一般具有如下形式：

正则化的作用是选择经验风险与模型复杂度同时较小的模型。

6，交叉验证

简单交叉验证：随机的将已给数据分为两部分，一部分作为训练集，另一部分作为测试集，(例如， 70%的数据为训练集.30%的数据为测试集)，然后用训练集在各种条件下(例如，不同的参数个数〉训练模型，从而得到不同的模型:在测试集上评价各个模型的测试误差，选出测试误差最小的模型.
S折交叉验证（K）：首先随机地将已给数据切分为5 个互不相交的大小相同的于集:然后利用S- l 个子集的数据训练模型，利用余下的于集测试模型:将这-过程对可能的S 种选择重复进行.最后选出S 次评测中平均测试误差最小的模型。
留一交叉验证：S 折交叉验证的特殊情形是S=N.往往在数据缺乏的情况下使用-这里.N 是给定数据集的容量。

7，泛化能力：就是模型对未知数据的预测能力。

这部分主要是将泛化误差上界，主要是一个定理的证明，感兴趣的同学可以直接看书。

8，分类问题

分类是监督学习的一个核心问题在监督学习中，当输出变量Y 取有限个离散值时，预测问题便成为分类问题这时，输入变量X 可以是离散的，也可以是连续的.监督学习从数据中学习一个分类模型或分类决策函数，称为分类器(classifier) .

评价分类器性能的指标一般是准确率。

对于二分类问题常用的指标是——精确率和召回率。

TP一将正类预测为正类数:
FN一一将正类预测为负类数:
FP一一将负类预测为正类数，
TN-一将负类预测为负类数.

这里有个很好记的方法，前面的T,F表示的是分类的正确性，后面的P,N为预测的结果，如TP，为正确预测为正类，那就是正类预测为正类数了嘛，FP，为错误预测为正类，那就是将负类预测为正类数了。

9，回归问题

回归是监督学习的另-个重要问题回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系。

回归问题的学习等价于函数拟合·选择一条函数曲线使其很好地拟合己知数据且很好地预测未知数据。

回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以由著名的最小二乘法(least squares) 求解。

第一篇，不得不说手打好累，希望能坚持下去吧。

zuxiaodon

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法笔记（一）

之前都是手写笔记，但是由于习惯不好，笔记老是找不到，又有很多人推荐我写博客方便以后查看，所以这几天会将我之前的笔记，一点点的写到这里来，但是由于CSDN的博客设置不是很会用，会很粗糙哦。。。首先是李航老师的统计学习方法，一直认为是入门的非常经典的一本书，里面的理论知识非常适合新手看。接下来，是我当时写的一些笔记。（一）统计学习方法概论统计学习
复制链接

扫一扫