一,统计学习定义、研究对象与方法
二,监督学习
三,统计学习方法三要素
四,模型选择
五,监督学习方法应用
一:
统计学习定义:关于计算机基础数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,另称为统计机器学习
统计学习的主要特点:
1,以计算机网络为平台(建立在计算机及网络之上)
2,以数据为研究对象(数据驱动的学科)
3,对数据进行预测与分析
4,以方法为中心(构建模型并应用模型进行预测和分析)
5,是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科(在发展中逐步形成独自的理论体系和方法论)
统计学习的对象:数据(数字、文字、图像、视屏、音频)。从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
数据以变量或者变量组的形式显示,分为连续变量和离散变量
统计学习目标:考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测和分析,也尽可能考虑提高学习效率。
统计学习方法:
1,监督学习
2,非监督学习
3,半监督学习
4,强化学习
统计学习步骤:
1,得到一个有限的训练数据集合
2,确定所有可能的模型的假设空间,即学习模型的集合
3,确定模型选择的准则,即学习策略
4,实现求解最优模型的算法,即学习的算法
5,通过学习方法选择最优模型
6,利用学习的最优模型对新数据进行预测或分析
统计学习应用场景:人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索和生物信息等~
二:
监督学习:学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测
输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。
三:
统计学习三要素:模型、策略、算法(方法=模型+策略+算法 )
模型:所要学习的条件概率分布或决策函数
策略:按照什么样的准则学习或选择最优的模型(损失函数、风险函数)
算法:具体的计算方法
常用的几种损失函数(损失函数值越小,模型越好):
1,0-1损失函数(0-1 loss function):
2,平方损失函数(quadratic loss function):
3,绝对损失函数(absolute loss function):
4,对数损失函数(logarithmic loss function)或对数似然损失函数(loglikelihood loss function):
风险函数(经验风险、结构风险):
经验风险最小的模型就是最优的模型。
结构风险最小化是为了过拟合而提出来的策略。结构风险最小化等价于正则化。
四:
当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就自然成为学习方法评估的标准。
当选择的模型复杂度过大时,过拟合现象就会发生。
正则化:结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)
交叉验证:重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
泛化能力:由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
生成模式与判别模型:
生成模型:由数据学习联合概率分布P(X|Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:(典型的生成模型:朴素贝叶斯和隐马尔科夫模型)
判别模型:判别方法由数据直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型,判别方法关心的是对应的输入X,应该预测怎样的输出Y。(典型的判别模型:k近邻法、感知机、决策树、逻辑斯丁回归模型、最大熵模型、支持向量机模型、提升方法、条件随机场)
五:
分类问题:
分类问题常用的统计学习方法:k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯丁回归模型、支持向量机模型、提升方法、贝叶斯网络、神经网络、winnow
标注问题:
标注问题常用的统计学习方法:隐马尔科夫模型、条件随机场
回归问题:
回归问题常用的损失函数:平方损失函数
最小二乘法