第一章
机器学习的整体流程:
1.确定数据集
确定特征向量和属性
2.通过某种算法进行学习和训练
3.得到模型(有监督:分类,回归,无监督:聚类)
4.进行预测
奥卡姆剃刀原则
如果多个假设与观察一致,选择最简单的那个
NFL定理(无免费午餐)
如果某类问题分布是离散均匀的,则任何算法的期望均相同,即期望与算法性能无关
所以需要具体问题具体分析,不同算法在不同问题情况下各有优劣
第二章
(不会打公式😅)
经验误差与过拟合
错误率
精度
误差
评估方法
泛化能力:对没见过的数据的预测能力
数据集划分方法:
1.留出法(三七分,二八分)
缺点:训练集与测试集容易不同分布
2.交叉验证法(K折交叉验证法)
缺点:数据较大时,对算力要求高
3.自助法
缺点:会改变初始数据分布,引入估计偏差
数据集划分类别:
1.训练集(用来训练模型的数据集)
2.测试集(用来验证模型的数据集)
3.验证集(用来调整模型参数的数据集)
性能度量
均方误差
所有预测结果与真实结果的差的平方的和
错误率
预测结果与真实结果不同的数量在总数中的比例
精度
正确结果在总数中的比例
查准率P
预测结果里有多少是对的
查全率R
预测的正例中有多少是真的正例
P-R曲线
可以看出P和R的反向变动关系,不可兼得
BEP平衡点
R=P时R与P的值
F1度量
基于P和R的调和平均数
F beta度量
是P和R的加权调和平均,F1的一般形式