机器学习之基础一

最新推荐文章于 2022-08-06 23:37:51 发布

九品稀饭

最新推荐文章于 2022-08-06 23:37:51 发布

阅读量296

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

机器学习基本知识

总结自李航《统计学习方法》、周志华《机器学习》和国外书籍《机器学习实战》

一、机器学习基本知识

机器学习的概念这里不再赘述，有很多解释，总的来说，就是从已有经验中总结规律，抽象知识，使其具有基本的判断，推理能力等等的过程。

机器学习有三要素：模型（能够大致拟合问题的假设空间）、策略（从假设空间中选取最优假设的策略）、算法（达到目标的最优化计算算法）

模型中，可以分类为生成式模型（目标条件概率分布，还原联合分布，速度快，隐变量仍适用）和判别式模型（目标函数或者联合分布，准确率高，抽象能力好，简化）

策略中，常用损失函数（loss function代价函数）来度量错误程度，常见的损失函数有0-1损失，平方损失，绝对损失，对数损失，一般用L(Y，p(Y|X))表示。损失中，有期望损失（expected loss/risk）和经验损失（empirical loss/risk），期望误差是泛化能力的体现，数据集足够大的情况下，根据大数定理，经验风险接近于期望风险，由于数据集的缺陷，往往无法直接获得期望损失，且，N为样本容量，d为假设空间样本。机器学习中，有两种策略，经验风险最小化ERM=minR_emp和结构风险最小化。条件概率分布、对数似然损失函数的条件下，ERM等价于MLE，条件概率分布、对数似然损失函数，且复杂度由先验概率表示的条件下，SRM等价于MAP。分析SRM的表达式可知，相当于对ERM进行正则化了，正则化是复杂度的递增函数，J(f)表示模型复杂度，而目前大多数机器学习的损失过程都是SRM，就是在经验误差和模型复杂度之间权衡，获得泛化能力很好的模型。

二、相关曲线

正则化的出现是由于欠拟合和过拟合的出现，如图所示：

测试和训练来自于交叉验证，分成训练集，测试集，验证集。验证集用来模型选择，测试集评估模型，训练集用来训练模型。对数据集的操作，还有S-fold，leave-one-out，留出法，自助法。

方差，偏差，泛化误差的关系，如图：

期望泛化误差，偏差表示算法拟合能力，方差表示数据扰动的影响，噪声表示学习的难度，总之，泛化性能=算法能力+数据充分性+本身难度。

，f(x;D)预测输出，yD数据集标记，y真实标记。f^(x)期望预测，关于预测输出的期望值。

P-R曲线用来比较算法的优劣

TP正正；FN正负；FP负正；TN负负；准确率，召回率，此外还有，特别的，

如果算法的PR曲线被其他算法包住，则该算法性能比另一算法差，存在交叉，则通过PR曲线包围的面积来衡量算法优劣，但不好计算，其实通过平衡点（P=R）来表示，平衡点取值大，算法就好。

ROC曲线和AUC曲线：

实际过程中，ROC曲线不会很光滑，得到离散的AUC曲线，对样例进行某种排序，得到AUC曲线，具体请百度

其评判准则和PR曲线一致，依据包围面积来衡量好坏。

总结：一些ML的基本概念，和一些衡量指标，经常用到。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之基础一

机器学习基本知识总结自李航《统计学习方法》、周志华《机器学习》和国外书籍《机器学习实战》一、机器学习基本知识机器学习的概念这里不再赘述，有很多解释，总的来说，就是从已有经验中总结规律，抽象知识，使其具有基本的判断，推理能力等等的过程。机器学习有三要素：模型（能够大致拟合问题的假设空间）、策略（从假设空间中选取最优假设的策略）、算法（达到目标的最优化计
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。