1.1、统计学习方法的定义与分类
1、定义:统计学习是关于计算机基础数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
2、统计学习三要素:模型,策略,算法
1.2、统计学习基本分类:监督学习,无监督学习,强化学习
1、监督学习定义:是指从标注数据中学习预测模型的机器学习问题,其本质是学习输入输出的映射的统计规律。
2、输入空间:输入的所有可能取值的集合
实例:每一个具体的输入,通常由特征向量表示。
输出空间:输出的所有可能取值的集合。
3、回归问题:输入变量与输出变量均为连续变量的预测问题
分类问题:输出变量为有限个离散变量的预测问题
标注问题:输入变量与输出变量均为变量序列的预测问题
4、无监督学习定义:是指从无标注数据中学习预测模型的机器学习问题,其本质是学习数据中的统计规律或潜在结构。
5、监督学习和无监督学习的区别
6、强化学习:环境和系统的互动
1.3、统计学习方法的三要素
1、监督学习:模型
2、监督学习:策略
3、四种常见的损失函数
经验风险在数据集过小时,容易发生过拟合,所以引入结构风险。结构风险平衡了数据集和模型的复杂度。
4、监督学习:算法
算法是如何求解最优模型的问题。
若优化问题存在显式解析解,算法简易;通常不存在解析解,需要数值计算方法,比如梯度下降法。
5、无监督学习三要素
1.4、模型评估与模型选择
1、训练误差
训练误差计算了每个样本的经验损失的平均值,样本来自训练集。
2、测试误差
测试误差计算了每个样本的经验损失的平均值,样本来自测试集。
3、误差率与准确率
真实值与预测值是否相等,其在所有样本点中所占的比率。
4、过拟合:学习所得模型包含参数过多,出现对已知数据预测很好,但对未知数据预测很差的现象。
1.5、正则化与交叉验证
1、正则化:实现结构风险最小化策略
2、奥卡姆剃刀原理:在模型选择时,选择所有可能模型中,能很好解释已知数据并且十分简单的模型
3、交叉验证:
训练集:用以训练模型
验证集:用以选择模型
测试集:用以最终对学习方法的评估
4、简单交叉验证:随机将数据分为两部分,即训练集和测试集。不同的分法得到不同的数据集,从而得到不同的模型,将测试集放到模型中验证,选出误差最小的模型。
5、S折交叉验证:随机将数据分为S个互不相交、大小相同的子集,其中以S-1个子集作为训练集,余下的子集作为测试集。
留一交叉验证:S折交叉验证的特殊情形,S = N。
1.6、泛化能力
1、泛化误差
2、泛化误差上界:指泛化误差的概率上界。两种学习方法的优劣,通常通过他们的泛化误差上界进行比较。
性质:
样本容量的函数:当样本容量增加时,泛化上界趋于0.
假设空间容量的函数:假设空间容量越大,模型就越难学,泛化误差上界就越大。
1.7、生成模型与判别模型
1、
注意:输入和输出变量要求为随机变量。
2、
注意:不需要输入和输出变量均为随机变量。
3、生成模型与判别模型的区别
1.8、监督学习应用
1、分类问题:评价指标
分类准确率:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比称为分类准确率:
方法:感知机,k邻近法,朴素贝叶斯,决策树,Logistic回归。
应用:银行业务,网络安全,图像处理,手写识别,互联网搜索。
2、标注问题
3、回归问题
按输入变量个数分类:一元回归,多元回归
按输入和输出变量之间关系:线性回归,非线性回归
损失函数:平方损失