统计学习
统计学习_[Day01]
近期利用假期时间,正在学习统计学习有关的知识,从这篇文章开始我会做一些学习统计学习知识的过程中自己的理解,如果文章中有误解或不足的地方还请大家多多指导。
一、统计学习概述
1.1 定义与分类
定义
统计学习(Statistical Machine Learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科
统计学习三要素
模型、策略、算法
分类
统计学习方法按不同侧重点可分为多种类型。
- 基本分类
- 监督学习
- 无监督学习
- 半监督学习
- 主动学习
- 强化学习
- 按模型分类
- 概率模型——非概率模型
- 线性模型——非线性模型
- 参数化模型——非参数化模型
- 按算法分类
- 在线学习
- 批量学习
- 按技巧分类
- 贝叶斯学习
- 核方法
1.2 统计学习的基本分类
本系列主要就基本分类分享个人的认识,也会存在部分其他分类的内容。
基本分类中,监督学习、无监督学习、半监督学习、主动学习 4 种类别主要可以通过数据中所包含的标记信息进行区分。
监督学习
监督学习(Supervised Learning):指从标注数据中学习预测模型的机器学习问题,其本质是学习输入到输出的映射的统计规律
成对的输入输出指一个样本,监督学习通过拟合函数,得到一个边界平面,将如图所示的两类点区分开(感知机)。
相关概念
- 输入空间(Input Space):输入的所有可能取值的集合
- 输出空间(Output Space):输出的所有可能取值的集合
- 实例(Instance):每一个具体的输入,通常由特征向量表示(Feature Vector)
- 特征空间(Feature Space):所有特征向量存在的空间
问题分类
根据变量类型不同,主要可分为以下几类问题:
- 回归问题:输入变量与输出变量均为连续变量的预测问题
- 分类问题:输出变量为有限个离散变量的预测问题
- 标注问题:输入变量与输出变量均为变量序列的预测问题
无监督学习
无监督学习(UnSupervised Learning):指从无标注数据中学习预测模型的机器学习问题,其本质是学习数据中的统计规律或潜在结构
监督学习和无监督学习的比较
强化学习
强化学习(Reinforcement Learning):通过与环境不断地交互获得奖励,并基于这些奖励调整学习过程以获得全局最优的行为策略。
基于策略/基于价值:选择最优策略或最优价值
半监督学习
半监督学习所学习的数据指含有少量标注的,大部分是没有标注的(标注需要耗费一定成本)
主动学习
主动学习指主动选择有用的实例进行标注,通过较少的标注代价实现比较好的标注效果
1.3 统计学习方法的三要素
根据上文可知,统计学习方法的三要素主要指:模型、策略、算法。下面分别简述监督学习和无监督学习中三要素的体现方式。
监督学习
模型
假设空间(Hypothesis Space):所有可能的条件概率分布(概率模型)或决策函数(非概率模型)。
其中,决策函数形如:y = w·x + b,可以用于解决回归问题。
而条件概率分布形如:P(Y=n|x),可以用于解决分类问题。
策略
想法是输入x,用预测的值 f(x) 和真实值 y 进行比较,并且使它们之间的差距越小越好,即求风险函数(此处可以为 Loss = y-f(x) )的最小值。但是这只是理想情况,真实的y的分布(即联合分布 P(x,y) )并不是已知的,风险函数不能直接进行计算,则需要根据训练集求训练样本的平均损失(经验风险)。
说到损失函数,下面介绍四种常见的损失函数:
当样本容量N趋于∞时,根据大数定律,经验损失会趋向于风险函数。但实际中,N是有限的,所以需要对经验损失进行一定的矫正。
根据样本容量的大小,对应的情况也会有所不同:
- 当样本容量N足够大时,可以认为经验风险是风险函数的一个估计值,此时只需要选取使经验风险最小的那个即可
- 当样本容量N过小时,仅仅使经验风险最小化容易导致过拟合的现象。此时需要引入结构风险,即对经验风险加上一定的惩罚项。使结构风险最小化即可。
- 结构风险平衡了经验风险和模型的复杂度。模型越复杂,惩罚项越大;模型越简单,惩罚项越小。
需要根据情况选择对应的处理方法。
算法
算法是用来求解最优模型的。若优化问题存在显式解析解,则算法简单;若不存在显示解析解,则需要数值计算方法,比如梯度下降法。