机器学习之基础一

机器学习基本知识

总结自李航《统计学习方法》、周志华《机器学习》和国外书籍《机器学习实战》

一、机器学习基本知识

机器学习的概念这里不再赘述,有很多解释,总的来说,就是从已有经验中总结规律,抽象知识,使其具有基本的判断,推理能力等等的过程。

机器学习有三要素:模型(能够大致拟合问题的假设空间)、策略(从假设空间中选取最优假设的策略)、算法(达到目标的最优化计算算法)

模型中,可以分类为生成式模型(目标条件概率分布,还原联合分布,速度快,隐变量仍适用)和判别式模型(目标函数或者联合分布,准确率高,抽象能力好,简化)

策略中,常用损失函数(loss function代价函数)来度量错误程度,常见的损失函数有0-1损失,平方损失,绝对损失,对数损失,一般用L(Y,p(Y|X))表示。损失中,有期望损失(expected loss/risk)和经验损失(empirical loss/risk),期望误差是泛化能力的体现,数据集足够大的情况下,根据大数定理,经验风险接近于期望风险,由于数据集的缺陷,往往无法直接获得期望损失,且,N为样本容量,d为假设空间样本。机器学习中,有两种策略,经验风险最小化ERM=minRemp和结构风险最小化。条件概率分布、对数似然损失函数的条件下,ERM等价于MLE,条件概率分布、对数似然损失函数,且复杂度由先验概率表示的条件下,SRM等价于MAP。分析SRM的表达式可知,相当于对ERM进行正则化了,正则化是复杂度的递增函数,J(f)表示模型复杂度,而目前大多数机器学习的损失过程都是SRM,就是在经验误差和模型复杂度之间权衡,获得泛化能力很好的模型。

二、相关曲线

正则化的出现是由于欠拟合和过拟合的出现,如图所示:

测试和训练来自于交叉验证,分成训练集,测试集,验证集。验证集用来模型选择,测试集评估模型,训练集用来训练模型。对数据集的操作,还有S-fold,leave-one-out,留出法,自助法。

方差,偏差,泛化误差的关系,如图:

期望泛化误差,偏差表示算法拟合能力,方差表示数据扰动的影响,噪声表示学习的难度,总之,泛化性能=算法能力+数据充分性+本身难度。

      ,f(x;D)预测输出,yD数据集标记,y真实标记。f^(x)期望预测,关于预测输出的期望值。

P-R曲线用来比较算法的优劣

TP正正;FN正负;FP负正;TN负负;准确率,召回率,此外还有,特别的,

如果算法的PR曲线被其他算法包住,则该算法性能比另一算法差,存在交叉,则通过PR曲线包围的面积来衡量算法优劣,但不好计算,其实通过平衡点(P=R)来表示,平衡点取值大,算法就好。

ROC曲线和AUC曲线:

   

实际过程中,ROC曲线不会很光滑,得到离散的AUC曲线,对样例进行某种排序,得到AUC曲线,具体请百度

其评判准则和PR曲线一致,依据包围面积来衡量好坏。

 

总结:一些ML的基本概念,和一些衡量指标,经常用到。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值