统计学习方法学习笔记(一)

1 统计学习及监督学习

在学习统计学习之前,我们先了解两个概念,即概率和统计。

概率:研究随机事件出现的可能性的数学分支,描述非确定性的正式语言,是统计推断的基础。
通俗地讲,概率是一个事件或事件集合出现的可能性
基本问题是给定以一个数据产生过程,则输出的性质是什么

统计:处理数据分析和概率理论的数学分支,与数据挖掘和机器学习是近亲
通俗地说,是一个用以描述样本或总体性质的数值,如均值或方差
基本问题是给定输出数据,我们可以得到该数据的产生过程的哪些信息

统计和概率的关系可概括为
在这里插入图片描述
因此,可以直白的说
统计学:就是根据数据进行推理的学科
统计学习:多元统计分析 + 计算机统计学
多元统计分析:基于一个多元变量数据集,预测函数值
数据挖掘:研究数据分析,尤其是大数据量且复杂的数据集

举个栗子:人脸形状
在这里插入图片描述
在这里插入图片描述

1.1 统计学习

定义:是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
通俗易懂地说,统计学习是运用一系列工具对数据进行分析建模,因此它研究的对象是数据,研究目的是预测与分析。即从数据出发,提取数据的特征,抽象出数据模型,发现数据中的知识,又回到数据中进行分析与预测。因此,统计学习的目标是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测和分析,同时也要考虑尽可能地提高学习效率。

实现统计学习方法的步骤如下:
①得到一个有限的训练数据集合
②确定包含所有可能的模型的假设空间,即学习模型的集合
③确定模型选择的准则,即学习策略
④实现求解最优模型的算法,即学习的算法
⑤通过学习方法选择最优模型
⑥利用学习的最优模型对新数据进行预测和分析

在这里插入图片描述

1.2 统计学习的分类

分类如下图所示
在这里插入图片描述

①首先基本分类可分为:监督学习、无监督学习、强化学习、半监督学习和主动学习

监督学习
预测模型对给定的输入产生相应的输出。
人工输入正确的已知结果,机器使用已知信息预测新的结果。在这里插入图片描述
那么监督学习可以做哪些事情呢?
回归任务:输入和输出变量均为连续变量的预测问题
分类任务:输出变量为有限个离散变量的预测问题
标注任务:输入变量与输出变量均为变量序列的预测问题

无监督学习
预测模型给出的是数据的类别、转换或概率。
人工输入未定义结果的数据,机器发现隐藏在数据中的有用信息。
在这里插入图片描述
那么无监督学习可以做哪些事情呢?
聚类分析:进行分组
密度估计:近似分布
降维:选择相关变量

强化学习
指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
四元素:agent、环境状态state、动作action、奖励reward

半监督学习与主动学习
半监督学习:利用标注数据和未标注数据学习预测模型的机器学习问题,通常有少量标注数据、大量未标注数据。

主动学习:指机器不断主动给出实例让教师标注,然后利用标注数据学习预测模型的机器学习问题。和监督学习不同的是,监督学习使用的是给定的标注数据,而主动学习是自己主动找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果

②按模型分类
概率模型:决策树、朴素贝叶斯、隐马尔科夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型
非概率模型:感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析,以及神经网络

线性模型:感知机、线性支持向量机、k近邻、k均值、潜在语义分析
非线性: 核函数支持向量机、AdaBoost、神经网络、深度学习

参数化模型:模型由优先维参数描述(感知机、朴素贝叶斯、逻辑斯谛回归、k均值、高斯混合模型)
非参数化模型:模型参数不固定,随着训练数据增加而增大(决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配)

③按算法进行分类
在线学习:每次接受一次样本,进行预测,之后学习模型,并不断重复该操作
批量学习:批量学习一次接受所有数据,学习模型,之后进行预测
NOTE:在线学习的场景,如数据依次达到无法存储,系统需要及时做出处理;数据规模大,不可能一次处理所有数据等。

④按技巧分类
贝叶斯学习:后验概率
核方法:是使用核函数表示和学习非线性模型的一种学习方法

1.3 统计学习方法的三要素

模型(假设空间)

1.4 模型估计与模型选择

1.5 正则化与交叉验证

1.6 泛化能力

1.7 生成模型与判别模型

1.8 监督学习应用

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值