Machine Learning Foundations 第5节-第8节

最新推荐文章于 2023-12-09 16:29:28 发布

qwurey

最新推荐文章于 2023-12-09 16:29:28 发布

阅读量425

点赞数

分类专栏： machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yeruby/article/details/46985987

版权

machine learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

機器學習基石 (Machine Learning Foundations) 学习要点小结：
课程来自coursera：
https://class.coursera.org/ntumlone-002/lecture

第5节 Training versus Testing

上面几节课告诉我们：
如果hypothesis set是有有限种选择，训练样本data够多，那么不管学习算法A怎么选择，样本的判别结果都会与总体的一致。如果此时，我们从找到H中找到一个g，使得Ein很小，那么我们就可以说可以通过learning学到东西。

因此hypothesis set的大小M非常重要，如果M太小，可供选择的hypothesis就太少，很可能找不到接近f的g；如果M太大，那么Ein就很可能变大，使得找到的g不接近f。

那么M取多少呢？

其实，M是满足一个成长函数的规律（Grow Function），对于不同的h(x)，其Grow Function不同。

我们既然想用Grow Function去取代原来无限的M，但是，经过分析，M可能是多项式级别的，这对我们来说是好消息，但是，M也可能是指数级别的，这对我们来说是坏消息，因为这样我们就无法保证Ein和Eout在data大小N越大的情况下充分的接近。
这里写图片描述

继续实验，发现对于2D的PLA，Grow Function对于3个点可以区分2^3=8个所有情形，对于4个点就无法区分2^4=16个所有情形了，这时，我们把4叫做PLA的break point。然而，对于convex set的Grow Function为2^N，不存在一个break point。我们因此也就可以猜想：
这里写图片描述

第6节 Theory of Generalization

上面我们定义了break point（“漏出一线曙光的点”）：
即一个grow function如果在data大小为N的时候，无法产生2^N个所有情形，就说这个grow function的break point在N。

接着推导发现：如果grow function的break point在k，那么当N>k时，会极大的限制grow function的最大值。

下面我们就需要计算一个grow function在存在k的前提下的最大值。如果最大值是一个多项式的话，我们就可以说Ein-Eout在某种情况会接近，即learning是可以做到的。

经过推导，我们得到了grow function的上限函数bounding function的上限：
这里写图片描述

接着，用bounding function替换hoeffding’s equality中的M：
这里写图片描述

例如，对于2D的PLA，break point k = 4，bounding function= O(N^3)。当资料N足够大的时候，Ein 接近 Eout的概率很大，可以达到learning的效果。

第7节 The VC Dimension

定义VC dimension为the formal name of maximum non-break point，即dvc = minimum k - 1；

这里写图片描述

上图表示：
如果N<=d_vc，则存在某个D会被hypothesis shatter。表示训练数据有可能被hypothesis shatter到，但是不一定；如果N>d_vc，则可以肯定的是它一定不能被shatter到。

对于1维的perceptron，dvc = 2；
对于2维的perceptron，dvc = 3；
对于3维的perceptron，dvc = d+1；

dvc的物理意义：effective ‘binary’ degree of freedom

dvc大致可以想象成为我们有多少可以调的旋钮。

选择一个有合适的dvc的hypothesis set非常重要：
这里写图片描述

从另一个方面来看dvc，我们希望Ein-Eout发生坏事情的概率足够小，也就是希望发生好事情的概率足够大。
这里写图片描述

所以dvc也可以用来描述model complexity，dvc越大，model complexity就越大。
这里写图片描述

除此之外，dvc还可以描述sample complexity，即样本复杂度。
通过计算会发现，理论上需要的训练数据量会是1w倍的dvc；但在实战中，一般只需要10倍dvc的数据量就能达到还不错的效果。

第8节 Noise and Error

我们选择好适合特定应用的error measure: err，然后在训练时力求最小化err，即，我们要让最后的预测发生错误的可能性最小（错误测量值最小），这样的学习是有效的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

qwurey CSDN认证博客专家 CSDN认证企业博客

码龄13年

443: 原创

9万+: 周排名

201万+: 总排名

169万+: 访问

: 等级

1万+: 积分

400: 粉丝

594: 获赞

223: 评论

1432: 收藏

私信

关注

热门文章

分类专栏

On the Way 3篇
Some Tips 16篇
Java 34篇
Coding 14篇
Hadoop 21篇
Hive 8篇
poj 59篇
PaperWriting 1篇
algorithm & data structure 13篇
Design pattern 1篇
Play 11篇
Linux 30篇
Spark 6篇
OS 1篇
leetcode 234篇
mysql 10篇
machine learning 5篇
tool 6篇
python 2篇
pg 6篇
Ambari 8篇
sqoop 1篇
rpc
flume 9篇
zookeeper 1篇

最新评论

x86虚拟地址到物理地址的映射学习
MonkeyKing-空: 是不是有些错误？为什莫就直接到线性地址了？，还是跳过了虚拟地址的转换过程？？？
对于ESP、EBP寄存器的理解
weixin_46111444: 刚想说
最小生成树Prim算法理解
暖暖好: 为什么要和之前的lowcost数组比较更新（比原来的lowcost[]小才更新数组），而不是直接更新啊（直接把邻接矩阵那一行代入），是有什么深意吗？
MapReduce中实现对HBase中表的操作一
菜菜的大数据开发之路: 膜拜技术大佬,来我博客指点江山吧
最小生成树Prim算法理解
EasonHua: 代码可以被hack掉数据： 5 18 2 4 276 3 3 435 3 4 608 2 4 860 1 2 318 1 3 547 5 4 419 2 5 98 1 5 460 5 3 399 3 5 240 3 2 733 3 3 903 4 2 909 5 2 206 3 4 810 2 1 115 2 3 419 答案：729

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。