统计学习方法学习笔记 第一章(一)

1.1 实现统计学习方法(机器学习)的步骤如下:

(1)得到一个有限的训练数据集合

(2)确定包含所有可能的模型的假设空间,即学习模型的集合

(3)确定模型选择的准则,即学习的策略

(4)实现求解最优模型的算法,即学习的算法

(5)通过学习方法选择最优模型

(6)利用学习的最优模型对新数据进行预测或分析

1.2 统计学习(机器学习)的分类

(一)基本分类

        监督学习 

        监督学习的目的在于学习一个输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习的范围的确定。

          无监督学习

          无监督学习是指从无标注数据中学习预测模型的的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计学习规律或潜在结构。

(二)按模型种类

(1)概率模型与非概率模型

监督学习中的概率模型取条件概率分布形式P(y|x),非概率模型取函数形式y=f(x),其中x是输入,y是输出

监督学习中的概率模型是生成模型,非概率模型是判别模型

概率模型有:决策树,朴素贝叶斯,隐马尔科夫模型,条件随机场,概率潜在语义分析,潜在狄利克雷分配,高斯混合模型。

非概率模型有:感知机,支持向量机,K近邻,AdaBoost,K均值,潜在语义分析,以及神经网络是非概率模型。

概率模型的代表是概率图模型,无论模型多么复杂,都有可以用最基本的加法规则和乘法规则进行概率推理

 

(2)线性模型linear model和非线性模型non-linear model

如果y=f(x)是线性函数,则称模型是线性模型,否则则称模型是非线性模型

线性模型:感知机,线性支持向量机,K近邻,K均值,潜在语义分析

非线性模型:核函数支持向量机,Adaboost,神经网络

深度学习(deep learning)实际是复杂神经网络的学习,也就是复杂的非线性模型的学习。

(3)参数化模型(parametric model)和非参数化模型(non-parametric model)

参数化模型假设模型参数的维度固定,模型可以由有限参数完全刻画。

非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。

参数化模型:感知机,朴素贝叶斯,逻辑斯蒂回归,K均值,高斯混合模型

非参数化模型:决策树,支持向量机,AdaBoost,K近邻,潜在语义分析,概率潜在语义分析,潜在狄利克雷分配

非参数化模型在复杂问题中更有效

(三)按算法分类

在线学习(online learning):每次接受一个样本,进行预测,之后学习模型,并不断重复该操作进行机器学习

批量学习(batch learning):批量学习一此接受所有数据,学习模型,之后进行预测

(四)按技巧分类

贝叶斯学习(Bayesian learning),又称贝叶斯推理,其主要想法是,在概率模型的学习和推理中,利用贝叶斯定理,计算给定数据条件下模型的条件概率,即后验概率,并应用这个原理对进行模型的估计 ,以及对数据的预测。

朴素贝叶斯、狄利克雷分配属于贝叶斯学习

核方法(Kernel method)是使用核函数表示和学习非线性模型的一种机器学习方法。

核PCA,核K均值属于核方法

1.3 统计学习的方法的三要素

       方法=模型+策略+算法

(一)模型(假设空间):找到一个备选模型的集合

假设空间可以用两种形式表示:

1.决策函数的集合

2.条件概率的集合

F通常是由一个参数向量决定的条件概率分布族,参数向量theta取值于n维欧式空间R^n,称为参数空间

(二)策略:用什么样的准则从备选模型中学习或选择

1.损失函数:策略就体现在损失函数上,损失函数表示的是对于每一个实例,预测值和真实值之间差别的惩罚

0-1损失函数:常用于分类问题中,f(x)为预测值=0或1,观测值Y也是0或1,预测值和观测值不相等,认为有损失,损失值记为1相等,则没损失。

平方损失函数:常用于回归问题中

绝对损失:常用于回归问题中

对数似然损失:前三个都是针对决策函数的损失函数,而最后一个是针对条件概率函数的损失函数,P(Y|X)是似然函数

2.经验风险最小化与结构风险最小化

在假设空间,损失函数以及训练数据集都确定的情况下,经验风险函数式就可以确定。

经验风险最小化(empirical risk minimization,ERM)的策略认为,经验风险最小的模型是最优的模型。

但这个策略适合于样本容量比较大的情况,如果样本容量少,利用这个策略容易出现过拟合。

结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出的策略。结构风险最小化等于正则化(regularization)。结构风险是在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。在假设空间,损失函数以及训练数据集确定的情况下,结构风险的定义是:

 

J(f)表示f这个模型的复杂度

(三)算法

算法是指学习模型的具体计算方法。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值