本周主要学习了《统计学习方法》的概论部分,掌握了一些基本概念,并对统计学习的整体思路有了更具体一点的理解。
- 统计学习是从统计数据出发,提取出数据中蕴含的特征,抽象出数据的模型,发现数据中的知识。统计学习的目的是利用学习得到的模型,对同类的未知数据进行分析和预测。这里的前提是,同类的数据具有相同或类似的统计规律性,即假设待预测或待分析的数据与学习模型所使用的训练数据具有相同的规律。
- 统计学习包括监督学习、非监督学习、半监督学习及强化学习。其中监督学习所使用的训练样本为一组正确的输入输出对,并将正确的输出与模型所预测的出处进行比较以据此来调整模型。
- 统计学习的三要素为模型的假设空间、模型学习的算法以及模型选择的准则,简称为模型、算法与策略,分别对应了“是什么”、“怎么办”、“怎么样”这三个问题。
- 首先,对于“是什么”的问题,即模型,有生成模型与判别模型。生成模型由数据学习联合概率分布P(X,Y),再求出条件概率分布P(Y|X)作为预测模型,即
P(Y|X)=
P(X,Y)/
P(X)
表示了给定出入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯和隐马尔科夫模型。
5. 对于“怎么办”的问题,即算法。其主要解决的是如何从模型的假设空间里选择最优模型,即优化问题。对于简单的优化问题,可以求出显示的解析解,而对于复杂的优化问题,就需使用数值计算方法求解。对于算法,如何找到全局最优,且求解过程高效是非常重要的问题。
6. 使用算法从假设空间中选择最优模型的依据,即这个模型“怎么样”,对应统计学习的另一个要素——策略。策略决定了模型的评价准则。用损失函数来度量模型的输出预测值与真实值之间的不一致程度。常用的损失函数有0-1损失函数、平方损失函数、绝对损失函数和对数损失函数等。损失函数的期望为风险函数。由于风险函数不能直接计算,需要使用经验风险来进行估计。使用经验风险最小化的策略来评价模型,若训练样本的样本容量不够大,则容易使得到的模型过于复杂,而容易出现过拟合,而使模型的泛化能力很弱。此时需使用结构风险最小化的策略,其实现称为正则化,即在经验风险的基础上加一个正则化项或惩罚项,例如模型参数的范数。
最后对于统计学习的应用,主要分为三类,分类问题、标注问题及回归问题。对于分类问题,输出变量Y取有限个离散的值。通过监督学习得到一个分类模型或分类决策函数,即分类器,来对新的输入进行类别的预测,即分类。可用于分类的统计学习方法有k近邻、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、SVM、AdaBoost、贝叶斯网络、神经网络、Winnow等。对于标注问题,输入一个观测序列,输出为一个标记序列或状态序列。常用的方法有:隐马尔可夫模型、条件随机场。对于回归问题,等价于函数拟合,选择一条函数曲线使其很好的拟合已知数据并且很好的预测未知数据。
而判别模型则由训练数据直接学习决策函数或者条件概率分布,典型的判别模型有:k近邻、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、SVM、AdaBoost、和条件随机场等。