定义
基于数据构建概率统计模型并运用模型对数据进行分析与预测。
三要素:模型、策略、算法
统计学需一般经过以下步骤:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最有模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。
综上,即用算法实现的策略来从假设空间中选取最优的模型来对新数据进行预测或分析。以下以监督学习说明三要素。
-
模型
在监督学习中,模型就是所要学习的条件概率分布或决策函数,假设空间包含所有可能的条件概率分布或决策函数。由决策函数表示的模型成为非概率模型,由条件概率表示的模型称为概率模型。 -
策略
即如何从假设空间中选取最优模型。 -
损失函数和风险函数:
损失函数是f(X)和Y的非负实值函数,它度量模型一次预测的好坏,损失函数值越小模型就越好。常用的损失函数有:0-1损失函数,平方损失函数,绝对损失函数,对数似然损失函数。损失函数的期望是理论上模型关于联合分布P(X,Y)的平均意义下的损失,称为风险函数,也叫期望风险,学习的目标就是选择期望风险最小的模型,但是联合分布是未知的,期望风险不能直接计算。 -
经验风险最小化与结构风险最小化:
模型关于训练数据集的平均损失称为经验风险.经验风险最小化的策略就是最小化经验风险.当样本数量足够大时学习效果较好.比如当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计.但是当样本容量很小时会出现过拟合.结构风险最小化等于正则化.结构风险在经验风险上加上表示模型复杂度的正则化项.比如当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计.
-
算法
指学习模型的具体计算方法,是求解最优化问题的算法。
统计学习的分类
监督学习、非监督学习、半监督学习、强化学习。
- 监督学习
训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。 - 非监督学习
训练样本的标记信息未知,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering),其他无监督算法还有:密度估计(densityestimation)、异常检测(anomaly detection) 等。 - 半监督学习
训练集同时包含有标记样本数据和未标记样本数据,不需要人工干预,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。 - 强化学习
强化学习也是使用未标记的数据,但是可以通过一些方法知道你是离正确答案越来越近还是越来越远(奖惩函数)。可以把奖惩函数看作正确答案的一个延迟、稀疏的形式。可以得到一个延迟的反馈,并且只有提示你是离答案越来越近还是越来越远。
监督学习的主要问题
分类问题、标注问题、回归问题,这三个问题都属于监督学习的范畴。
-
分类问题
分类问题是用于将事物打上一个标签,输出变量取有限个离散的预测问题,例如预测明天天气-阴,晴,雨。
许多的机器学习方法可以用来解决分类问题,包括近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯谛回归模型、SVM、adaBoost、贝叶斯网络、神经网络等。
-
标注问题
分类问题的一个推广,其输入是一个观测序列,输出的是一个标记序列或状态序列。也就是说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型。
自然语言处理中的词性标注(part of speech tagging)就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。
标注常用的机器学习方法有:隐性马尔可夫模型、条件随机场。
-
回归问题
回归问题是输入变量和输出变量均为连续变量的预测问题,回归问题的学习等价于函数拟合:选择一条函数曲线,使其很好地拟合已知数据且很好地预测未知数据。
模型选择、评估、性能度量
当假设空间含有不同复杂度的模型时,就要面临模型选择问题。
-
过拟合:是指学习时选择的模型所包含的参数过多,以致于对已知数据预测得很好,但对未知数据预测很差的现象.模型选择旨在避免过拟合并提高模型的预测能力.
-
正则化:是模型选择的典型方法.正则化项一般是模型复杂度的单调递增函数,比如模型参数向量的范数.
-
交叉验证:是另一常用的模型选择方法,可分为简单交叉验证,K折交叉验证,留一交叉验证等.
-
泛化能力:学习方法的泛化能力即由该方法学习得到的模型对未知数据的预测能力。
-
准确度(accuracy):对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,最常用,但在数据集不平衡的情况下不好。
-
精确度/查准率(precision):P=TP/(TP+FP)
-
召回率/查全率(recall):R=TP/(TP+FN)
-
F1-score:精确率和召回率的调和均值.
-
PR曲线:纵轴为Precision,横轴为Recall,一般使用平衡点(BEP,即Precsion=Recall的点)作为衡量标准.
-
ROC(接受者操作特征)曲线:纵轴为TRP,横轴为FPR,在绘图时将分类阈值依次设为每个样例的预测值,再连接各点.ROC曲线围住的面积称为AOC,AOC越大则学习器性能越好.