统计学习方法chapter1

统计学习方法chapter1

统计学习概述

对象 object

统计学习的对象为数据,从数据出发,提取数据的特征(特征工程),抽象出数据的模型(建立模型),发现数据中的知识,又回到对数据的分析与预测中去(回归/分类)

用途 purpose

用于对数据的预测与分析

方法 method

统计学习的方法是基于数据构建概率统计模型从而对数据进行预测和分析(即整合对象和用途),统计学习主要由监督学习,无监督学习,半监督学习,强化学习等组成。

术语 onym

  • 模型:从输入到输出的映射
  • 假设空间:模型的集合
  • 概率模型:条件概率分布P(Y|X),决策函数:Y=f(X)
  • 联合概率/边缘概率/条件概率/贝叶斯公式数学含义参考该博客
  • 特征向量:通常用于表示每一个具体的输入(实例),所有特征向量存在的空间为特征空间(通常用矩阵/加黑的X表示)
  • 样本:输入和输出对

基本分类

监督学习(supervised learning)

监督学习的目的在于根据有标识数据学习一个从输入到输出的映射,通常分为学习和预测两个过程,由学习系统和预测系统完成。在学习过程中,学习系统利用给定的有标识数据的数据集,通过学习(或训练)得到一个model,表示为条件概率分布/决策函数(二者描述输入与输出变量之间的映射关系)

数学化
在这里插入图片描述
实例化
在这里插入图片描述

无监督学习(unsupervised learning)

无监督学习是从无标注数据中学习预测模型的机器学习问题(无标注数据是自然得到的数据),旨在从假设空间中选出在给定评价下得最优模型,事实上,监督模型也是如此。预测模型可以表示数据的类别、转换或概率,并且可实现对数据得聚类、降维或概率估计。

无监督学习进行预测的流程类似于监督学习,由学习系统和预测系统组成

数学化
在这里插入图片描述
实例化
在这里插入图片描述

强化学习(reinforcement learning)

强化学习是智能体(Agent)以“试错”的 方式进行学习,通过与环境进行交互获得的奖励指导行为,目标是使智能体获得最大的奖励
强化学习所定义的智能体(Agent)正如人一般,在不断犯错与反思中进步成长,最终站上食物链的顶端。
关于强化学习,知识盲区较多,具体知识放置到后期博客中。

半监督学习(semi-supervised learning)

半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据和大量未标注数据,因标注数据的构建往往需要人工,成本较高,未标注的数据的收集不需要太多的成本。半监督学习旨在利用未标注数据的信息,进行监督学习,以较低的成本达到较好的学习效果。

主动学习(active learning)

主动学习是指不断给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。通常的监督学习使用给定的标注数据,可以看作是“被动学习”,主动学习的目标是找出对学习最优帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。

事实上,半监督学习和主动学习更接近监督学习。

按模型分类

  • 概率模型与非概率模型:以监督学习为例,概率模型取条件概率分布形式P(y|x),非概率模型取函数形式y=f(x),x为输入,y为输出。常见的概率模型有朴素贝叶斯模型,隐马尔可夫模型,决策树等,而神经网络非概率模型,逻辑回归既可以视为概率模型也可以视为非概率模型。
  • 线性模型与非线性模型:如果函数y=f(x)或者z=g(x)为线性函数,则模型为线性模型,反之则为非线性模型。
  • 参数化模型与非参数化模型:参数化模型的模型参数维度固定,模型可以有有限维参数完全刻画;非参数化模型的模型参数的维度不固定或者说无穷大,随着训练数据量的增大而不断增大。(ps:非参数化模型并不是说不需要参数)

按算法分类

  • 在线学习:系统可进行增量学习,适应数据更新快(eg:股票数据)
  • 批量学习:系统无法进行增量学习,若更新数据,需重新利用整个数据(包括新数据和旧数据)重新进行训练

关于二者的区别请戳这里

按技巧分类

  • 贝叶斯学习:利用贝叶斯定理,计算在给定数据条件下模型的条件概率(后验概率),并应用这个原理进行模型的估计以及数据的预测在这里插入图片描述
    ~~关于极大似然估计参考这里
  • 核方法:使用核函数表示和学习非线性模型的一种机器学习方法,可用于监督学习和无监督学习。常见的核函数SVM,核PCA,核K均值都属于核方法

统计学方法三要素

方法 = 模型 + 策略 + 算法

模型

  • 模型
    在这里插入图片描述
  • 参数空间 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200904004457260.png#pic_c
  • 条件概率集合在这里插入图片描述
  • 参数空间在这里插入图片描述

策略

  • 损失函数:一次预测的好坏
  • 风险函数:平均意义下模型预测的好坏
  • 0-1损失函数在这里插入图片描述
  • 平方损失函数在这里插入图片描述
  • 绝对损失函数
    在这里插入图片描述
  • 对数损失函数在这里插入图片描述
  • 损失函数的期望在这里插入图片描述
  • 经验风险和结构风险最小化

经验风险最小化最优模型

在这里插入图片描述
当样本容量很小时,经验风险最小化学习的效果未必很好,会产生过拟合
结构风险最小化
在这里插入图片描述
为防止过拟合提出的策略,等价于正则化,加入正则化项(罚项)

未完待续…看官先瞅瞅其他滴blog~~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值