《统计学习方法》学习笔记第一章_统计基础与应用第一章笔记-CSDN博客

本文链接：https://blog.csdn.net/weixin_44315022/article/details/105455956

《统计学习方法》学习笔记第一章

1.1 统计学习基础（大数定律及其应用）

这是第一篇CSDN的博客，也是学习李航老师《统计学习方法》的第一周，于是决定每学完一章就写一篇博客记录一下，这样也能监督自己把这本书啃完，同时也能克制自己不去想乱七八糟的事情。
#1.1 统计学习基础（大数定律及其应用）
#1.2 过拟合和模型选择（正则化为什么能防止过拟合）
#1.3 泛化（泛化误差上界的推导）
#1.4 EM算法

1.1 统计学习基础（大数定律及其应用）

统计学习是关于计算机基于数据构建概率统计模型并运营模型对数据进行预测与分析的一门科学。统计学习的对象是数据。从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析和预测中。
统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。统计学习由监督学习、无监督学习和清华学习等组成。
三要素是：模型、策略和算法
步骤是：1、得到一个有限的训练数据集合；2、确定包含所有可能的模型的假设空间，即学习模型的集合；3、确定模型选择的准则，即学习的策略；4、实现求解最优模型的算法；5、通过学习方法选择最优模型；6、利用学习的最优模型对新数据进行预测或分析。
分类：
1、监督学习：通俗来说就是输入变量X和输出变量Y成对输入，来训练数据。如果输入输出变量是连续的则为回归问题；离散的则为分类问题。X和Y的联合概率分布就是监督学习关于数据的基本假设。

在这里插入图片描述从图中可以看出输入是成对的。

2、无监督学习：
在这里插入图片描述无监督学习通常使用大量的无标注数据学习或训练，每一个样本是一个实例。在无监督学习中，分为三种：第一是硬聚类 z=gθ（x）；第二是软聚类 Pθ（z|x）第三是概率模型估计

强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程，由五元组组成
在这里插入图片描述半监督学习与主动学习（更接近监督学习）

统计学习方法三要素：方法=模型+策略+算法
模型就是要学习的条件概率分布或者决策函数
策略：首先引入损失函数和风险函数
常见的损失函数：在这里插入图片描述 **理论上模型fX关于联合分布P（Y,X）的平均意义下的损失，称为风险函数或者期望损失
学习的目标就是选择期望风险最小的模型。但是这个联合分布是未知的，所以使用模型f(X)关于训练集的平均损失作为经验风险或经验损失。
根据大数定律，当样本容量N趋于无穷时，经验风险就约等于期望风险。
大数定律：随着样本容量的增加，样本平均数接近于总体平均数，从而为统计推断中依据样本平均数估计总体平均数据提供依据。
**