统计学习方法学习笔记：第一章.统计学习及监督学习概论

最新推荐文章于 2024-05-19 14:29:44 发布

小滔滔ahh

最新推荐文章于 2024-05-19 14:29:44 发布

阅读量230

点赞数

分类专栏：统计学习文章标签：李航统计学习笔记

本文链接：https://blog.csdn.net/weixin_44692791/article/details/102288283

版权

统计学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

第一章：统计学习及监督学习概论：

统计学习方法

统计学习方法按照不同的角度可以分为不同的几个类别，如：监督学习、无监督学习、半监督学习、强化学习等，又可以根据技巧分为：贝叶斯学习、核方法；按模型分类：线性、非线性；概率模型、非概率模型等等；

统计学习方法三要素：模型（假设空间：需要学习的模型属于某个函数集合）、策略（选择什么样的模型）、算法（如何得到最优的模型）；构建一种统计学习方法就是确定具体的统计学习三要素；

下面以监督学习为例给出三要素的相关内容：

模型

需要学习的模型可以理解为输入 X 与输出 Y 之间的一种关系，可以是某种概率分布、决策函数，通常由参数向量决定，学习的结果就是得到这样的参数，确定某个模型；

策略

根据某种规则选择最优模型；

损失（代价）函数与风险函数

损失函数度量模型一次预测的好坏；风险函数度量平均意义下模型预测的好坏；

常见代价函数有 0-1 损失函数、平方损失函数、绝对损失函数、对数损失函数等等，是一个非负实值函数 'F(X) = L(Y,f(X))'
而**风险函数（风险损失）**则是损失函数的期望，即平均意义下的损失（由于预先不知道期望，因此是无法求得的，只能由经验损失来估计）；

‘经验损失’：即训练集样本的平均损失，当样本集足够大时，可以认为 ‘经验损失 = 风险损失’；由于样本数目有限，需要对经验损失进行校正，监督学习中涉及到两个策略：‘经验风险最小化’（策略认为经验风险最小的模型就是最优的模型）、‘结构风险最小化’（正则化：引入惩罚项（模型的复杂度，是定义在假设空间的泛函），防止由于样本数量太少而导致的过拟合问题）；这样，监督学习就变成了经验风险或结构风险的最优化问题；

算法

如何求得模型的算法，即最优化算法；

监督学习（学习 + 预测）

概述

监督学习是从标注数据中学习模型的机器学习问题；（学习输入到输出的映射的统计规律）；
特征空间 X 与输出空间 Y 具有联合概率分布 P(X,Y) 就是监督学习对数据的假设（前提）；
泛化能力：模型对未知数据的预测能力。通常使用test set来进行评估，但由于测试集的大小受限，评估的效果也许不是很准确；通常采用泛化误差上界 R来评估不同模型的泛化能力；泛化误差即所学习到的模型的期望误差；泛化误差上界与样本容量N、假设空间容量d、训练误差 R’有关。其中，N越大，R越小；而d、R’ 越大，相应的 R 也越大；
对于二类分类问题，且假设空间包含有限个函数的情况下：
对于任意的 f （模型），至少以概率 （1 - delta） ，不等式 R(fN) <= R’(fN) + sigma( d,N,delta) 成立；
该式子可由Hoeffding inequation证明；
其中 fN 是最优化模型；sigma = （（logd + log （1/delta）) / 2N））.^(-1/2) ；
根据学习的方法分为**‘生成方法’（学习联合概率分布）和‘判别方法’（学习条件概率或决策函数）**，具体参见之后的内容；
监督学习应用为三个方面：分类问题、标注问题、回归问题

小滔滔ahh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法学习笔记：第一章.统计学习及监督学习概论

统计学习方法统计学习方法按照不同的角度可以分为不同的几个类别，如：监督学习、无监督学习、半监督学习、强化学习等，又可以根据技巧分为：贝叶斯学习、核方法；按模型分类：线性、非线性；概率模型、非概率模型等等；统计学习方法三要素：模型（假设空间：需要学习的模型属于某个函数集合）、策略（选择什么样的模型）、算法（如何得到最优的模型）；构建一种统计学习方法就是确定具体的统计学习三要素；下面以监督学习为...
复制链接

扫一扫

专栏目录