机器学习之统计学习方法笔记--统计学习概要：三大问题分类、回归、标注问题

最新推荐文章于 2020-06-16 00:19:48 发布

虎牙永远藏不住

最新推荐文章于 2020-06-16 00:19:48 发布

阅读量577

点赞数 3

分类专栏：学习笔记

本文链接：https://blog.csdn.net/weixin_43909531/article/details/84721378

版权

学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

大家好，开启这个系列，有两个原因。其一，是为了记录我学习李航老师《统计学习方法》的一些收获和想法；其二，是希望与和我一样希望较为系统的学习算法的同学们一起分享。写文章的原则是，按照我自己的理解和逻辑书写，尽量浅显易懂，该不用公式尽量不用公式，毕竟已经不用Latex很久了。。。话不多说，那就开始吧。

1、统计学习到底是个什么鬼？
在第一次接触到一个不懂的名词的时候，就要立马要弄明白，它到底是个什么东西；否则，你将会再次遇到它。。。
官方定义为：统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。

说人话就是，在你手头的数据里，哼哧哼哧地找数据中存在的规律，然后用一个你找到的最为靠谱的模型来描述这个规律。都说，统计学习是找出上帝套路的一种方法，想想有点意思。

2、那统计学习有什么用呢？
我们找到规律并用模型描述它以后，可以干什么呢？毕竟人是铁饭是钢，不能光播种不长稻子对不。这里就引申出了统计学习的可以解决的三大问题：分类问题、标注问题、回归问题。

首先，分类问题。分类问题是监督学习中的一个核心问题。当我们手里的数据，输出的变量Y是有限个离散值时，这便是一个分类问题。分类问题应用场景非常的多，比如我近期遇到的业务问题，需要判断一个客户是否会购买保险产品（是/否）；比如，需要预测某客户的风险类别（高、中、低）；再比如文本分类中，需要判别这篇文章属于哪个类别的文章（经济类、娱乐八卦类、政治类等）。统计学习中分类方法有很多：K近邻方法、感知机、朴素贝叶斯法、决策树、logistics回归、支持向量机等；是不是都是些最熟悉的陌生人呀。。没关系，后续都会一一讲解。
第二个，标注问题。标注问题可以认为是分类的问题的一个推广。它的输入是一个观测序列，输出也是一个序列。标注问题在自然语言处理中有广泛的应用，比如输入一个句子，希望能找出这个句子中的人名、地名、机构名等；此时输入的句子以单词为粒度，为一个序列；输出的是不同位置的单词的标识，也为一个序列。标注常用的统计学习方法有：隐马尔科夫模型、条件随机场；方法名称的每一个字都认识，拼在一起就完全不认识了。。。不哭，坚强。
第三个，回归问题。这也是非常常见的问题。回归是用于预测输入变量和输出变量之间关系的方法。回归问题可以研究当输入变量发生变化时，输出变量相应变化的程度。回归问题等价与函数拟合，选择一条函数曲线，使其更好的拟合已知数据切很好地预测未知的数据。许多领域的任务都可以形式化为回归的问题。比如：做市场趋势的预测、客户满意度调查、股票价格预测等；回归根据输入变量的个数分为一元回归和多元回归。虽然回归应用看似非常简单，实则难点在于如何准确找到影响因素（输入变量）。而输入变量的选择，则需要建模人员对业务有较为深刻的理解。

3、如何选择模型呢？
当我们学习出一个模型出来以后，我怎么知道这个模型是好是坏呢？我们如何去选择一个最优的模型呢？这就到了模型评估与模型选择的环节了。
每当做选择时，我们都需要基于一个准则，否则好、坏、最优就变得毫无意义了。所以我们讨论的是，在某个准则下，我们去找一个最优解。那学习模型时，这个准则是什么呢？经验风险或结构风险最小化。
先介绍一下损失函数：当我们基于数据学习了一个模型后，输入X，会有模型输出值f(x)，这个模型输出值与真实的Y，可能一样可能不一样，我们用损失函数L(y,f(x))来度量模型值与实际值之间的差距。最常见的损失函数为平方损失函数：
    损失函数值越小，模型就越好。由于模型输入和输出都是随机变量，故损失函数的期望是：

    模型关于训练集的平均损失为经验风险。最小化经验风险等价于:

当样本量足够大的时候，经验风险最小化能保证很好的学习效果，在现实中也广泛采用。
但当样本量较小时，经验风险最小化学习的效果就未必很好。因为一味的追求训练集的损失函数最小化，会出现“过拟合”的问题。统计学习的目的是使学习的模型不仅对已知的数据有很好的描述效果，还需要对未知的数据有很好的预测效果。“过拟合”指对训练样本有很好的拟合效果，但是对于预测样本效果很差。
   为了防止过拟合，提出了结构风险最小化。结构风险在经验风险的基础上增加了模型复杂度的正则化项。结构风险小需要经验风险和模型复杂度同时小。
   最小化结构风险等价于:

这样，我们模型选择问题就转换成了求经验风险或者结构风险最小化的最优问题了。
到这里，大家对统计学习到底是什么，有什么用，要怎么用应该有了个大致的了解。之后，我会对分类、标注、回归三大问题的算法进行较为详细的描述，敬请期待哦~~

虎牙永远藏不住

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
机器学习之统计学习方法笔记--统计学习概要：三大问题分类、回归、标注问题

大家好，开启这个系列，有两个原因。其一，是为了记录我学习李航老师《统计学习方法》的一些收获和想法；其二，是希望与和我一样希望较为系统的学习算法的同学们一起分享。写文章的原则是，按照我自己的理解和逻辑书写，尽量浅显易懂，该不用公式尽量不用公式，毕竟已经不用Latex很久了。。。话不多说，那就开始吧。 1、统计学习到底是个什么鬼？在第一次接触到一个不懂的名词的时候，就要...
复制链接

扫一扫