1、什么是机器学习
机器学习是像人类学习一样,输入新的问题--归纳经验--总结规律--预测、得出结果,机器学习是一种计算机程序,它可以让系统在未经人为主动编程的情况下,具有从经验(数据)中自动学习并自我改进的能力。
机器学习三要素:数据、算法、模型
机器学习:数据 + 算法------->模型(函数f)
2、数据集
如下是一个数据集,下面编号1-4被称为训练集
(1)训练集:给训练对象大量数据,用来训练、估计模型
而编号1-4下的编号1这一行被称为测试集
(2)测试集:用来检验训练出来的模型性能如何
3、机器学习和人工智能的关系
机器学习是人工智能的一个子领域,被人工智能包括。
4、机器学习的类型
分为三类:监督学习、无监督学习、强化学习
(1)监督学习:对有标签数据的数据集进行建模,再用模型对新的数据样本进行分类或者回归分析的机器学习算法。
分类:结果的数据是离散型,又可分为两分类(垃圾邮件分类)、多分类(数字0-9识别):
回归:结果的数据是连续型:
(2)无监督学习:对没有标签的数据集进行建模,再用模型对新的数据样本进行分类或者回归分析的机器学习算法。
(3)强化学习:根据行为反馈(奖励或惩罚)学习
设计回报函数,学习任务是找到回报值(奖励值)最大的路径。
5、机器学习的基本流程
四个基本流程:数据准备---训练---测试---模型应用
6、优化模型
从数据上:数据质量和训练数据有直接关系,大量高质量训练数据是提高模型质量最有效的手段。
在有限的数据上,提高其质量的手段:
a.进行归一化(正规化、标准化)等操作。
b.采用 Bootstrap 等采样方法处理有限的训练/测试数据。
c.从业务角度区分输入数据包含的特征,并理解这些特征对结果的贡献。
从调参(算法)上:超参数是需要模型训练者自己来设置和调整的
从模型类型选择上:如果某个模型再怎么调参,都无法满足在某个特定指标上的要求,那就只好换个模型试试了。
7、模型质量评价
(1)机器学习算法评价及指标
目标:使得学到的模型能很好的适用于“新样本”, 这称为泛化能力。
在监督学习问题中,有两种基本的预测误差:模型的偏差、方差。
评价指标:
Accuracy(准确率,ACC):ACC=(TP+TN)/(TP+TN+FP+FN)
表示分类器预测正确的样本占所有样本的比例
Precision(精确率或查准率):P=TP/(TP+FP)
表示真正预测为正样本的样本数占所有预测为正样本的样本数的比例
即预测为正样本中正确的占的比例
Recall(召回率):R=TP/(TP+FN)
表示真正预测为正样本的样本数占实际正样本的样本数的比例
(2)模型问题以及解决办法
A. 欠拟合:模型在训练集上的预测结果就不佳,指标偏低。
原因:模型简单、特征选取不够等,无法捕获数据的潜在趋势。
解决办法:增加模型复杂度、增加特征或增加正则项比重。
B.过拟合:模型在训练集上指标很好,在验证/测试集上指标偏低,或者模型在训练集和验证/测试集上效果都不错,一到真实环境却预测误差较大。
原因:模型复杂、特征选取不当等,数据中存在大量噪声并被学习算法捕获。
解决方法:减少加模型复杂度、减少特征或减少正则项比重。