1.1 统计学习
统计学习方法的步骤
- 得到一个有限的训练数据集合
- 确定学习模型的集合
- 确定模型选择的准则
- 实现求解最优模型的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测或分析
1.2 统计学习方法的分类
基本分类
- 监督学习
- 无监督学习
- 强化学习
按模型分类
- 概率模型和非概率模型
- 线性模型和非线性模型
- 参数化模型和非参数化模型
按技巧分类
- 贝叶斯学习
- 核方法
按算法分类
- 在线学习
- 批量学习
1.2.1 基本分类
监督学习:
监督学习(Supervised learning) 是指从标注数据
中学习预测模型的机器学习问题,其本质是学习输入到输出的映射的统计规律
-
输入空间
输入的所有可能取值的集合
-
实例(instance)
每一个具体的输入,通常由特征向量(Feature vector)表示
-
特征空间
所有特征向量存在的空间
-
输出空间
输出的所有可能的集合
根据变量类型的不同:
- 输入变量与输出变量为连续变量的预测问题 回归问题
- 输出变量为有限个离散变量的预测问题 分类问题
- 输入变量与输出变量均为变量序列的预测问题 标注问题
监督学习的基本假设: X X X 和 Y Y Y 具有联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)
监督学习的目的:学习一个输入到输出的映射,这一映射以模型表示
模型的形式:条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)或决策函数 Y = f ( X ) Y=f(X) Y=f(X)
假设空间:所有这些可能模型的集合
监督学习的流程图:
示
模型的形式:条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)或决策函数 Y = f ( X ) Y=f(X) Y=f(X)
假设空间:所有这些可能模型的集合
监督学习的流程图: