统计学习方法：统计学习方法概论

最新推荐文章于 2024-01-22 17:42:29 发布

xxiaozr

最新推荐文章于 2024-01-22 17:42:29 发布

阅读量547

点赞数

分类专栏： book 文章标签：机器学习

本文链接：https://blog.csdn.net/xxiaozr/article/details/68929869

版权

book 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1.1 统计学习
统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。统计学习的对象是数据，统计学习用于对数据进行预测和分析。统计学习总的目标就是考虑学习什么样的模型和如何学习模型，以使模型能对数据进行准确的预测和分析，同事也要考虑尽可能的提高学习效率。
统计学习由监督学习（supervised learning）,非监督学习（unsupersived learning）,半监督学习和强化学习（reinforcement learning）等组成。
统计学习的方法可以概括为：从给定的，有限的，用于学习的训练数据集合出发，假设数据是独立同分布的，并且假设要学习的模型属于某个函数的集合，称为假设空间（hypothesis spase），应用某个评判标准（evaluation criterion）,从假设空间中选取一个最优的模型，使他对已知训练数据及未知测试数据在给定的测试准则下有最优的预测，最优模型的选取由算法实现。统计学习的三要素：模型，策略和算法
统计学习的步骤：得到一个有限的训练数据集合；确定包含所有可能的模型的假设空间，即学习模型的集合；确定模型选择的准则，即学习的策略；实现求解最优模型和算法，即学习的算法；通过学习方法选择最优模型；利用学习的最优模型对新数据进行预测或分析。
1.2 监督学习
1.2.1 基本概念
输入空间和输出空间：输入和输出所有可能取值的集合称为输入和输出空间
每一个具体的输入是一个实例，通常由特征向量表示。所有的特征向量存在的空间是特征空间。有时假设输入空间和特征空间是相同的空间，有时认为是不同的空间，将实例映射到特征空间。模型都定义在特征空间上。
输入变量和输出变量居委连续变量的预测问题称为回归问题，输出变量为有限个离散变量的预测问题称为分类问题，均为变量序列的预测问题称为标注问题。
1.3 统计学习三要素
1.3.1 模型
1.3.2 策略
损失函数
这里写图片描述
损失函数的期望是

这是理论模型关于联合概率分布的平均意义下的损失，称为风险函数或者期望损失。
当样本容量足够大时，经验风险最小化能够保证很好的学习效果，但是当样本容量很小的时候，，经验分线最小化学习的效果不是很好，会产生过拟合现象，结构风险最小化是为了房子过拟合而提出来的策略，等价于正则化，结构风险在经验风险上加上模型复杂度的正则化项。
1.4 模型评估和模型选择
1.4.1 训练误差和测试误差
训练误差是在训练数据集上的误差，测试误差是在测试数据集上。
测试误差反应了学习方法对未知的测试数据集的预测能力，测试误差小的具有更好的泛化能力。
1.4.2 过拟合和模型选择
如果一味追求提高对训练数据的预测能力，所选择的模型复杂度会比真模型更高，这就是过拟合。过拟合是指，学习时选择的模型包含参数过多。
这里写图片描述
1.5 正则化和交叉验证
1.5.1 正则化
正则化项一般是模型复杂度的单调递增函数。
1.5.2 交叉验证
如果给定的数据充分多，一般分为三个部分，分别为训练集，验证集和测试集。训练集用于训练模型，验证集用于模型的选择，测试集用于最终的评估。数据不充足时采用交叉验证的方法。基本思想是重复的使用数据，把使用的数据进行切分，将切分的数据集组合为训练集和测试集，，反复进行训练测试和模型的选择。
1.简单的交叉验证
随机的将已知数据分为两部分，一部分是训练集，一部分是测试集。
2.S折交叉验证
随机将已知数据切分为S个互不相交的大小相同的子集，然后利用S-1个子集进行训练，剩下的一个进行测试；将这一过程对可能的S中选择重复进行，最后在选出在S次评测中，平均误差最小的模型。
3.留一交叉验证
S交叉的特殊情形，S=N，N是给定数据集的容量。
1.6 泛化能力
1.6.1 泛化误差
通过测试误差来评价学习方法的泛化能力。
这里写图片描述
上面的式子中左边就是泛化误差；右端就是泛化误差上界，第一项是对未知数据的训练误差，第二项是单调递减函数。训练误差小的模型泛化误差也会小。
1.7 生成模型和判别模型
监督学习方法可以分为生成方法和判别方法，所学到的模型分别是生成模型和判别模型。生成方法先学习联合概率密度分布再求出条件概率密度分布，生成模型表示给定一个输入X产生输出Y的生成关系，典型的生成模型有：朴素贝叶斯和隐马尔科夫模型。判别方法直接学习决策函数或者条件概率密度分布作为预测的模型，判别方法是给定输入X，应该输出什么样的输出Y。典型的判别模型包括：k近邻法，感知机，决策树，支持向量机。
1.8 分类问题
分类问题包括两个部分，学习和分类，再学习过程中，根据已知的训练数据集学习到一个分类器，再分类阶段利用已经学习到的分类器对新的分类实例进行分类。
1.9 标注问题
标注问题可以看做是分类问题的一个推广，输入是一个观测序列，输出是一个标记序列或者状态序列。
1.10 回归问题
回归用于预测输入变量和输出变量之间的关系，回归模型正是表示输入变量到输出变量之间的映射的函数，回归问题等价于函数拟合。