一、机器学习流程
获取数据–数据预处理–特征工程–模型训练–模型评估
二、机器学习算法分类
1.监督学习
定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据为有标签的
1.1回归问题:
用于预测输入变量和输出变量之间的关系,回归问题可以等价于函数的拟合:选择一条函数曲线,使其很好的拟合已知数据,且很好的预测未知数据。是一种定量输出,也叫连续变量预测。回归问题分为两个过程:学习和预测。按照输入变量的个数分为:一元回归和多元回归;按照输入和输出变量之间的关系分为:线性回归和非线性回归。常用的损失函数是平方损失函数
1.2分类问题:
在监督学习中,输出变量取有限个离散值即是分类问题,推断对应的类别,属于定性输出,也叫离散变量预测,同样包括学习和分类两种过程,通过数据学习到的分类模型或者分类函数,叫做分类器。常用算法:KNN,决策树、朴素贝叶斯法、支持向量机、等等等等。
2.无监督学习
输入数据没有被标记,也没有确定的结果,即样本数据类别未知,没有标签,需要根据样本间的相似性对样本集进行聚类,以发现事物内部结构及相互关系。无监督学习是在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要‘分类’。
2.1聚类
物以类聚,根据输入的数据建立模型,不考虑分类标签,通过学习,发现数据间的关系,将相似的实例分在同一组。
2.2降维
3.半监督学习
训练集数据一部分有标签而其余部分无标签,即训练集同时包含有标记样本和无标记样本。
多数情况下,数据成本昂贵,主要是已标记的实例较少,且类似医学等专业数据需要专业人员标记,成本较高,实际中更多地是未打标签的数据。半监督学习的思想就是使用一部分有标签的训练集和一部分无标签训练集学习,以提高模型的准确率。
4.强化学习
定义:实质是make decisions问题,即自动进行决策,并且可以做连续决策希望一段时间后获得最多的累计奖励。主要包含四个要素:agent、环境状态、行动、奖励。
5.各算法间区别
三、模型评估
1.回归问题的评估
1.1 RMSE:平方误差
通常是回归任务的首选性能衡量指标,但对于异常值比较敏感
1.2 MAE:绝对值误差
1.3 R²:决定系数
决定系数(coefficient of determination,R²)是反映模型拟合优度的重要的统计量,为回归平方和与总平方和之比。R²取值在0到1之间,且无单位,其数值大小反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系所能解释的百分比。R²是最常用于评价回归模型优劣程度的指标,R2越大(接近于1),所拟合的回归方程越优。
2.分类问题的评估
2.1混淆矩阵
2.2精确率和召回率
精确率:预测为正例里预测对了的比例
召回率:所有正例中预测对了的比例
2.3 F分数
F分数:根据实际问题提需要权衡考虑召回率和精确率
2.4ROC曲线以及AUC
ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以TPR真阳性率(灵敏度)为纵坐标,FPR假阳性率(1-特异度)为横坐标绘制的曲线。也就是说在你给定不同的阈值时会有不同的TPR和FPR的坐标点,连点成线的叫做ROC曲线。
最完美的分类器(完全区分正负样例):过(0,1)点,即没有FP,全是TP曲线越“凸”向左上角,说明分类器效果越好,即曲线上离(0,1)越近的点分类效果越好随机预测会得到(0,0)和(1,1)的直线上的一个点
AUC(area under thecurve),也就是ROC曲线的下夹面积,越大说明分类器越好,最大值是1,图中的蓝色部分就是AUC
3.拟合与优化
3.1欠拟合
- 表现:测试集和训练集都表现不佳
- 原因:特征太少,模型过于简单
- 解决办法:1) 添加其他特征项; 2)添加多项式特征
3.2过拟合
- 表现:训练集表现精度较高,测试集显现一般
- 原因:过度学习噪声和细节,模型过于复杂,模型泛化性能差
- 解决办法:
- 1.清晰数据降噪
- 2.增加样本
- 3.减少维度(减少无关特征)
3.3维灾难
随着维度(特征)的增加,分类器性能逐步上升,到达某点之后,其性能便逐渐下降,当特征过多时,样本密度下降,模型的精度下降的情况就是维灾难,会造成过拟合。
解决办法:降维(减少无关特征),增加数据量