统计学习方法学习(一)----统计学习及监督学习概论

一、统计学习的基本了解

1、统计学习是指关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科,也称作为统计机器学习。
2、统计学习的三要素:模型、策略、算法。
3、统计学习的目的:对未知数据进行预测以及分析。

二、统计学习的分类

1、监督学习:是指从标注数据学习预测模型的机器学习问题。
标注数据是指输入输出的对应关系;预测模型是指对于给定的输入产生指定的输出
监督学习的本质:学习输入输出的映射的统计规律。
1.1监督学习的相关定义:
输入/输出空间:输入输出的所有可能取值的集合。
假设空间:输入空间到输出空间的映射的集合。
1.2监督学习的模型:
在这里插入图片描述
在这里插入图片描述
2、无监督学习:是指从无标注数据学习预测模型的机器学习问题。
无标注数据:是指从自然界获得的数据;预测模型表示数据的类别、转换以及概率。
1、无监督学习的模型
1.1训练集
在这里插入图片描述
1.2模型函数(决策函数):
在这里插入图片描述
1.3条件概率分布:
在这里插入图片描述
1.4学习结构:
在这里插入图片描述
3、强化学习:是指智能系统与环境的连续互动中学习最优行为策略的机器学习问题。
在这里插入图片描述
3.1强化学习模型:
在这里插入图片描述
3.2相关定义:
在这里插入图片描述
3.3强化学习方法:
在这里插入图片描述
4.半监督学与主动学习:
半监督学习:是指利用标注数据非未标注数据学习预测模型的机器学习问题。
主动学习:是指机器不断主动给出实例让分析人员进行标注,然后利用标注数据学习预测模型的机器学习问题。
5.模型的分类
1、概率模型与非概率模型
2、线性模型与非线性模型
6.学习方法
贝叶斯学习与核方法

三、统计学习方法三要素

1、模型
在这里插入图片描述
2、策略
在这里插入图片描述
在这里插入图片描述
经验风险最小化与结构风险最小化
在这里插入图片描述
Tips:求最优模型就是求解最优化问题
在这里插入图片描述
3、算法
1、如果最优化问题有显式的解析式,算法比较简单
2、但通常解析式不存在,就需要数值计算的方法

四、模型评估与模型选择

1、相关参量
在这里插入图片描述
2、过拟合问题:学习的模型对于已知数据预测的很好,但对于未知数据预测得比较差。
3、训练误差和测试误差与模型复杂度的关系在这里插入图片描述

五、正则化与交叉验证

1、正则化:是结构风险最小化策略的实现,是在经验风险上加上正则化项或者罚项
模型越复杂,正则化值就越大。
正则化的一般形式:在这里插入图片描述
2、交叉验证:用于对模型的选择。
1.对模型进行选择的时候,将数据集分为训练集、验证集、测试集。
训练集:用于训练模型。
验证集:用于模型选择。
测试集:用于最终对学习方法的评估。
2.交叉验证的三种基本方式
简单交叉验证
S着交叉验证
留一交叉验证

六、泛化能力

1.泛化能力:模型的预测能力。
2.泛化误差(期望风险)
在这里插入图片描述
3.泛化误差上界在这里插入图片描述
在这里插入图片描述
定理的证明用到了Hoeffding 不等式,证明详解见课本P27.

七、生成模型与判别模型

1.生成模型:由数据学习联合概率分布,然后求出条件概率分布的模型。
在这里插入图片描述
经典的模型有:朴素贝叶斯法和隐马尔科夫模型
2.判别模型数据直接学习**决策函数f(X)条件概率分布P(Y|X)作为预测的模型。
在这里插入图片描述
在这里插入图片描述
3.生成方法与判别方法的对比
1.生成方法的学习收敛速度很快,当样本容量增加的时候,学习的模型很接近真实模型。
2.判别方法直接学习的是条件概率或者决策函数,面对各种预测,学习的精确度很高

八、监督学习的应用

1.分类问题:输出为有限个离散的变量
在这里插入图片描述
2.回归问题:输入输出的变量均为连续变量在这里插入图片描述
3.标注问题:输入输出均为变量序列

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值