1. 统计学习概念
赫尔伯特·西蒙:“如果一个系统能够通过执行某个过程改进他的性能,这就是学习。”
- 统计学习(statistical learning)的定义:
- 计算机系统通过运用数据及统计方法提高系统性能的机器学习。
- 基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称为统计机器学习(statistical machine learning)。
- 统计学习的对象:数据,包括数字、文字、图像、视频、音频及它们的组合。
- 统计学习的目的:基于数据构建概率统计模型,获得对数据的准确的预测(使计算机智能化)与分析(获取新知识新发现)。要考虑学习什么样的模型,如何学习模型,怎样提高学习效率。
- 统计学习的方法:监督学习(supervised learning)——分类、标注、回归;无监督学习(unsupervised learning);强化学习(reinforcement learning)
- 三要素:模型、策略、算法
- 步骤:
(1)获取一个优先的训练数据集合
(2)确定包含所有可能的魔性的假设空间,即学习模型的集合
(3)确定模型选择的准则,即学习的策略
(4)实现求解最优模型的算法,即学习的算法
(5)通过学习方法选择最优模型
(6)利用学习的最优模型对新数据进行预测或分析
2. 统计学习分类
2.1 基本分类
2.1.1 监督学习
-
定义:需要标注的训练数据集,学习一个由输入到输出的映射(以模型表示),来进行预测。
-
基本元素:输入空间X、特征空间、输出空间Y
-
根据输入输出变量的不同类型(连续/离散/序列),把预测任务分类为:
输入变量与输出变量为连续变量的预测问题——回归问题
输出变量为有限个离散变量的预测问题——分类问题
输入变量与输出变量均为变量序列的预测问题——标注问题 -
前提假设:X和Y具有联合概率分布,即存在分布(密度)函数P(X,Y)
统计学习的目的就是找到两个随机变量的联合概率分布P(X,Y)
联合密度分布参考:https://blog.csdn.net/qq_39636214/article/details/85036837 -
可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数(decision function)Y=f(X)表示,随具体学习方法而定。
2.1.2 无监督学习
- 定义:从无标注数据中学习统计规律或潜在结构,建立预测模型的机器学习问题
- 基本元素:输入空间(每个输入是一个实例,由特征向量表示)、输出空间(每个输出是对输入的分析结果,由类别、转换、概率表示)
- 预测问题分类(预测结果):数据的聚类、降维、概率估计
2.1.3 强化学习
-
定义:智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
-
预测结果:假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。
-
本质:学习最优的序贯决策。
-
图解: