统计学习方法 学习笔记

统计学习及监督学习概论

监督学习是从标注数据中学习模型的机器学习问题,是统计学习或机器学习的重要组成部分。

1.1统计学习

主要特点:

1、以计算机及网络为平台,是建立在计算机及网络上的;
2、以数据为研究对象,是数据驱动的学科;
3、目的是对数据进行预测与分析;
4、以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
5、是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系和方法论。

“如果一个系统能够通过执行某个过程改进他的性能,这就是学习”——赫尔伯特·西蒙。
统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。

对象就是数据

从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,回到对数据的分析与预测。
基本前提:同类数据具有一定的统计规律。

目的

对数据的预测与分析,特别是对未知新数据的预测与分析。
总的目标就是考虑学习什么样的模型和如何学习模型,以使得模型能够对数据进行准确的预测与分析,同时尽可能的提高学习效率。

方法

从给定的、有限的、用于学习的训练数据集合出发、假设数据是独立同分布产生的;假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测。
三要素:模型的假设空间、模型选择的准则以及模型学习的算法。

步骤

1、’得到一个有限的训练数据的集合;
2、确定包含所有可能的模型的假设空间,即学习模型的集合;
3、确定模型选择的准则,即学习的策略;
4、实现秋节最优模型的算法,即学习的算法;
5、通过学习方法选择最优的算法;
6、利用学习的最优模型对新数据及进行预测或分析。

重要性

1、处理海量数据的有效方法。
2、计算机智能化的有效手段、
3、计算机科学发展的一个重要组成部分。

1.2 统计学习的分类

基本分类

监督学习、无监督学习、强化学习、有时还包括半监督学习和主动学习。

监督学习

学习输入到输出的映射的统计规律。
1、输入空间、特征空间和输出空间
输入与输出所有可能的取值集合分别称为输入空间与输出空间。(有限元素或整欧氏空间)
一个具体的输入是一个实例,一般用特征向量表示。特征向量存在的空间称为特征空间。每一位对应一个特征。
模型实际上都是定义在特征空间上。
输入:X,输出:Y
监督学习从训练数据集合中学习模型,对测试数据进行预测。
训练数据由输入(或特征向量)与输出对组成。
2、联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X|Y)。学习过程中假定存在,但对于学习系统来说具体的定义是未知的。(所研究的数据前提具有规律)
3、假设空间
输入空间到输出空间的映射的集合,就被称为假设空间。(意味着学习的范围确定)。
模型可以是概率模型或者费概率模型,分别由条件概率分布P(Y|X)或者决策函数Y=f(X)来表示。
4、问题的形式化
监督学习分为学习和预测两个过程,由学习系统和预测系统完成。
利用训练数据集完成学习模型,再用模型对测试样本集进行预测。
在这里插入图片描述

无监督学习

无标注数据中学习预测模型的机器学习问题(自然的得到的数据)。本质上是学习数据中的统计规律或潜在结构。
模型可以实现对数据的聚类、降维或概率估计。
在这里插入图片描述

强化学习

是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。强化学习是学习最有的序贯决策。(序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。)
在这里插入图片描述

每一步 t 智能系统从环境中观测到一个状态 st 余一个奖励 rt ,然后执行一个动作 at 。环境根据因此决定下一步的各个状态。强化学习中系统不断试错以达到学习最优策略的目的,长期积累奖励最大化。
强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程,由五元组(S,A,P,r,γ)组成。
●S是有限状态的集合
●A是有限动作的集合
●P是状态转移概率函数:P(s’|s,a)= P(st+1=s’|st=s,at=a) .
●r是奖励函数: r(s,a) = E(rt+1|st=s,at=a)
●γ是衰减系数: γ∈[0,1]

马尔可夫决策过程具有马尔可夫性,下 个状态只依赖于前 个状态与动作,由状态转移概率函数 P(s’ls,α) 表示。下一个奖励依赖于前 个状态与动作,由奖励函r(s,α) 表示。
价值函数
在这里插入图片描述
动作价值函数
在这里插入图片描述

半监督学习与主动学习

半监督就是数据中有标注数据也有未标注数据。利用未标注数据辅助标注数据。(较低的成本达到好的学习效果)
主动学习是机器不断主动给出实力让教师标注,然后利用这些数据学习预测模型。(较小的标注代价达到较好的学习效果)
半监督学习和主动学习更接近监督学习。

按模型分类
1.概率模型与非概率模型

概率模型 P(y|x)
非概率模型 y=f(x)
两者之间可以进行互相转化。
概率模型:
在这里插入图片描述

2.线性模型与非线性模型

特别是非概率模型可分为线性与非线性,看y=f(x)是否为线性函数。

3.参数化模型与非参数化模型

参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;(简单问题情况)
非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。

按算法分类

在线学习与批量学习。
在线学习就是一次接受一个样本,预测,学习模型。(监督和无监督均可)
在这里插入图片描述

而批量学习是一次接受所有数据,学习模型,预测。

按技巧分类
1.贝叶斯学习

贝叶斯学习,也称贝叶斯推理。
先利用贝叶斯定理计算该模型条件概率,后验概率,并应用这个原理进行模型估计和数据预测。
基本概率公式:
假设随机变量D表示数据,随机变量θ表示模型参数。根据贝叶斯定理,可以用以下公式计算后验概率P(θ |D):
在这里插入图片描述
其中 P(B) 是先验概率 ,P(DIθ) 是似然函数。
计算数据对后验概率分布的期望值,x为新样本。
在这里插入图片描述
在这里插入图片描述

2.核方法

核方法是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。有一些线性模型的学习方法基于相似度计算,更具体地,向量内积计算。核方法可以把它们扩展到非线性模型的学习,使其应用范围更广泛。
线性 拓展为→非线性
显式地定义从输入空间(低维)到特征空间(高维)的映射,在特征空间进行內积计算。
在这里插入图片描述

统计学习方法三要素

方法=模型+策略+算法

模型

首先考虑学习的是什么样的模型?
监督学习就是条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策分布。假设空间中的模型一般有无穷多个。
在这里插入图片描述
F:假设空间
X:输入空间的变量
Y:输出空间的变量
这时F通常是由一个参数向量决定的函数族
在这里插入图片描述
参数向量θ取值于n维欧氏空间Rn,称为参数空间。

条件概率情况:
在这里插入图片描述
在这里插入图片描述

策略

考虑什么样的准则学习或选择最优模型。

损失函数和风险函数

输出预测值f(X)和真实值Y之间的错误程度用一个损失函数来度量,记作L(Y,f(X))。
1、0-1损失函数
在这里插入图片描述
2、平方损失函数
在这里插入图片描述
3、绝对损失函数
在这里插入图片描述
4、对数损失函数
在这里插入图片描述
损失数字越小,模型越好。
损失函数期望:
在这里插入图片描述
即:风险函数(期望损失)
矛盾:我们要选择更好的模型需要选风险函数最小的,但风险函数需要条件概率分布,即联合分布律,但联合分布律又是未知的。

给定一个训练集T:
在这里插入图片描述
模型f(x)关于训练数据集的平均损失称为经验风险,记作Remp
在这里插入图片描述
N趋向于无穷时Remp趋于Rexp,但是实际上远远达不到,需要对经验风险进行矫正。

经验风险最小化与结构风险最小化

假设空间、损失函数、训练数据集确定,经验风险就可以确定。经验风险最小的模型就是最优模型。
在这里插入图片描述
容量足够大可以保证很好的学习效果,但容量很小时未必很好,可能会有“过拟合”现象。

结构风险最小化就是为了防止过拟合而提出的策略。
在这里插入图片描述
J(f)为模型复杂度,越复杂越大。
λ>=0,是系数,权衡经验风险和模型复杂度。
贝叶斯估计中认为结构风险最小模型是最优模型。
在这里插入图片描述

算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。这时,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
统计学习方法之间的不同,主要来自其模型、策略、算法的同。确定了模型、策略、算法,统计学习的方法也就确定了。这就是将其称为统计学习方法三要素的原因。

1.4 模型评估与模型选择

训练误差与测试误差

平时学到的模型
在这里插入图片描述
模型关于训练数据集的平均损失:

在这里插入图片描述
同样的,模型关于测试数据集的平均损失:
在这里插入图片描述
0-1损失时就求出误差率,对应的有准确率。

过拟合与模型选择

在假设空间中有不同的复杂度,对应的我们要选择合适的模型。(与真模型参数个数相同,参数向量相近)。
我们在做的时候,过于追求对训练数据的预测能力,模型复杂度超出真模型,这就产生了过拟合状态。(能很好的预测已知的数据,但是对未知的数据预测的很差。)
在这里插入图片描述
我们在实际过程中,选择复杂度合适的模型使得测试误差最小。

1.5正则化与交叉验证

正则化

一般形式
在这里插入图片描述
经验风险+正则化项,λ为调节两者关系。
正则化项一般是模型复杂度的单调递增函数,越复杂越大。可以是模型参数向量的范数。
正则化的作用是选择经验风险与模型同时较小的模型。

交叉验证

一般情况下样本数据充足,利用一份数据完整模拟整个过程。
不充足可以采用交叉验证,在划分训练集,验证集和测试集时重复使用一些数据。
1,、简单交叉验证
数据一分为二(不用平均)训练集和测试集。
2、S折交叉验证(应用最多)
一分S份互不相交,大小相同,S-1训练,一份测试,再重复进行S种。
3、留一交叉验证
S折交叉验证特殊情况,S=N(N是给定的数据集容量)

泛化能力

泛化误差

模型对未知数据预测的误差即为泛化误差。
在这里插入图片描述
泛化误差就是模型的期望风险。

泛化误差上界

一般情况,通过比较两种学习方法的泛化误差上界的大小来比较他们的优劣。
性质:他是样本容量的函数,当样本容量增加,泛化上界趋近于0;
他是假设空间容量的函数,假设空间容量越大模型越难学,泛化误差上界就越大。
定理对二类分类问题,当假设空间是有限个函数的集合对二类分类问题,当假设空间是有限个函数的集合不等式成立:
在这里插入图片描述
在这里插入图片描述
R(f)是泛化误差,右端是泛化误差上界。

1.7生成模型与判别模型

监督学习除了可以分为决策函数和条件概率分布,还可以分为生成方法和判别方法。
生成方法由数据学习联合概率分布P(x|y)求出P(y|x)作为预测模型就是生成模型。
判别方法由数据直接学习决策函数或条件概率分布作为预测模型。

1.8监督学习应用

分类问题

当输出变量Y取有限个离散值时,预测问题便成为分类问题。
在这里插入图片描述
学习过程中根据已知的训练数据集学习一个分类器;分类过程中利用学习的分类器对输入实例进行分类。
性能评价指标:分类准确率
二类分类问题评价指标:精确率和召回率。
关注的类为正类,其他类为负类。
四种情况:
TP—正类预测为正类数
FN—正类预测为负类数
FP—负类预测为正类数
TN—负类预测为负类数
精确率P=(TP)/(TP+FP)
召回率R=(TP)/(TP+FN)
F1值(精确率和召回率的调和均值)
在这里插入图片描述在这里插入图片描述

标注问题

标注问题是分论问题的一个推广,也是更复杂的结构预测问题的简单形式。
其有学习和标注两个过程
在这里插入图片描述
常用于信息抽取、自然语言处理等。

回归问题

回归问题用于预测输入变量和输出变量之间的关系。
其有学习和预测两个过程:
在这里插入图片描述
可以分为一元回归和多元回归也可以分为线性回归和非线性回归。
回归函数表示输入与输出变量间的映射,学习过程就是找到和现有的数据拟合的一个函数,预测未知函数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值